设置Robots.txt来降低MediaWiki网站的负载
“设置Robots.txt来降低MediaWiki网站的负载”和“MediaWiki系统的Robots.txt”在这里有相同的下面内容。
--James Qi 2008年10月7日 (三) 22:31 (CST)小许帮忙分析造成我们服务器过忙的原因很可能不是别人故意攻击,而是一些搜索引擎蜘蛛来爬引起的。
十一长假期间,我把Squid的access.log日志文件传了一份下来,对照squid.conf设置文件中已经屏蔽的IP详细研究,主要分三种情况:
- 看到以前有一些IP属于病急乱投医错误屏蔽的,后来这些IP也没有来过,或者只来过几次,显然不是攻击,而是普通浏览者,可以马上解封;
- 有一些屏蔽后在一周左右的时间中还有几百到几万的IP来访,详细查询IP地址归属、网上相关发贴,发现基本上都是搜索引擎的蜘蛛,有雅虎搜索、腾讯搜搜、百度搜索等,这些就解封观察;
- 有一个新近访问量特别多的,还不知道是否蜘蛛,暂时不解封。
对于以上第二种情况发现解封后,某些网站的负载马上升高很多,又几乎让服务器无法访问,猜想可能是某些搜索引擎的蜘蛛不太明白MediaWiki系统造成爬行过量。
MediaWiki系统的一个特点是站内链接特别多,每一个页面都对应有&action=edit, history, move, talk以及链出更改、链入页面、旧版本、新老版本比较等链接,这有利于人工操作、编辑,一些聪明的蜘蛛(例如Google Bot)来说不会迷路,但对于设计得不好的搜索引擎蜘蛛来说就沿着各种可能的链接到处乱窜,又因为这些蜘蛛的服务器强大、网络带宽充裕,可以对我们服务器进行非常密集的访问,就直接导致我们的服务器因为过载而瘫痪。
于是和这些搜索引擎蜘蛛沟通就很重要了,最开始我们网站都没有Robots.txt,后来建了一个允许所有蜘蛛访问所有链接的Robots.txt,这当然也没有起到屏蔽的作用,十一放假前参考了维基百科、Mahalo等网站的Robots.txt文件,重新编辑了我们网站的Robots.txt,现在节后再次编辑进行更多链接屏蔽,还增加了部分蜘蛛遵守的参数Crawl-delay和Request-rate,希望能让搜索引擎蜘蛛更明白我们的意图,更友好地合作下去。
与搜索引擎配合好至关重要,对它们的蜘蛛只好进行引导,强行屏蔽只能让它们放弃收录,不利于网站发展。希望这些改动能收到好的效果,继续观察看看。
附目前的Robots.txt:
# robots.txt file from 18dao wiki project # add for www.18dao.cn by jamesqi 2008-9-27 User-agent: * Disallow: /User* Disallow: /QC* Disallow: /Note* Disallow: /Task* Disallow: /skins Disallow: /Special:Random Disallow: /Special%3ARandom Disallow: /Special:Search Disallow: /Special%3ASearch Disallow: /Special:Recentchangeslinked/ Disallow: /Special%3ARecentchangeslinked/ Disallow: /index.php?title=Special:Random Disallow: /index.php?title=Special:%3ARandom Disallow: /index.php?title=Special:Search Disallow: /index.php?title=Special:%3ASearch Disallow: /*action* Disallow: /*oldid=* Disallow: /*diff Crawl-delay: 5 # set to 5 seconds to wait between successive requests to the same server Request-rate: 1/5 # maximum rate is one page every 5 seconds # Some bots are known to be trouble, particularly those designed to copy # entire sites. Please obey robots.txt. User-agent: sitecheck.internetseer.com Disallow: / User-agent: Zealbot Disallow: / User-agent: MSIECrawler Disallow: / User-agent: SiteSnagger Disallow: / User-agent: WebStripper Disallow: / User-agent: WebCopier Disallow: / User-agent: Fetch Disallow: / User-agent: Offline Explorer Disallow: / User-agent: Teleport Disallow: / User-agent: TeleportPro Disallow: / User-agent: WebZIP Disallow: / User-agent: linko Disallow: / User-agent: HTTrack Disallow: / User-agent: Microsoft.URL.Control Disallow: / User-agent: Xenu Disallow: / User-agent: larbin Disallow: / User-agent: libwww Disallow: / User-agent: ZyBORG Disallow: / User-agent: Download Ninja Disallow: /
- 补充:可以根据搜索引擎收录中发现的错误来有针对性进行屏蔽,例如把“Disallow: /index.php?”全部屏蔽。
- 参考:MediaWiki官方网站上的说明:Manual:Robots.txt。
标签:MediaWiki、Robots.txt。 |
相关内容:
|
别名:如何设置MediaWiki平台网站的Robots.txt、设置Robots.txt来降低MediaWiki网站的负载。