设置Robots.txt来降低MediaWiki网站的负载

来自Jamesqi
跳转至: 导航搜索

“设置Robots.txt来降低MediaWiki网站的负载”和“MediaWiki系统的Robots.txt”在这里有相同的下面内容。

--James Qi 2008年10月7日 (三) 22:31 (CST)

  小许帮忙分析造成我们服务器过忙的原因很可能不是别人故意攻击,而是一些搜索引擎蜘蛛来爬引起的。

  十一长假期间,我把Squid的access.log日志文件传了一份下来,对照squid.conf设置文件中已经屏蔽的IP详细研究,主要分三种情况:

  1. 看到以前有一些IP属于病急乱投医错误屏蔽的,后来这些IP也没有来过,或者只来过几次,显然不是攻击,而是普通浏览者,可以马上解封;
  2. 有一些屏蔽后在一周左右的时间中还有几百到几万的IP来访,详细查询IP地址归属、网上相关发贴,发现基本上都是搜索引擎的蜘蛛,有雅虎搜索、腾讯搜搜、百度搜索等,这些就解封观察;
  3. 有一个新近访问量特别多的,还不知道是否蜘蛛,暂时不解封。

  对于以上第二种情况发现解封后,某些网站的负载马上升高很多,又几乎让服务器无法访问,猜想可能是某些搜索引擎的蜘蛛不太明白MediaWiki系统造成爬行过量。

  MediaWiki系统的一个特点是站内链接特别多,每一个页面都对应有&action=edit, history, move, talk以及链出更改、链入页面、旧版本、新老版本比较等链接,这有利于人工操作、编辑,一些聪明的蜘蛛(例如Google Bot)来说不会迷路,但对于设计得不好的搜索引擎蜘蛛来说就沿着各种可能的链接到处乱窜,又因为这些蜘蛛的服务器强大、网络带宽充裕,可以对我们服务器进行非常密集的访问,就直接导致我们的服务器因为过载而瘫痪。

  于是和这些搜索引擎蜘蛛沟通就很重要了,最开始我们网站都没有Robots.txt,后来建了一个允许所有蜘蛛访问所有链接的Robots.txt,这当然也没有起到屏蔽的作用,十一放假前参考了维基百科、Mahalo等网站的Robots.txt文件,重新编辑了我们网站的Robots.txt,现在节后再次编辑进行更多链接屏蔽,还增加了部分蜘蛛遵守的参数Crawl-delay和Request-rate,希望能让搜索引擎蜘蛛更明白我们的意图,更友好地合作下去。

  与搜索引擎配合好至关重要,对它们的蜘蛛只好进行引导,强行屏蔽只能让它们放弃收录,不利于网站发展。希望这些改动能收到好的效果,继续观察看看。

附目前的Robots.txt:


# robots.txt file from 18dao wiki project
# add for www.18dao.cn by jamesqi 2008-9-27

User-agent: *
Disallow: /User*
Disallow: /QC*
Disallow: /Note*
Disallow: /Task*

Disallow: /skins
Disallow: /Special:Random
Disallow: /Special%3ARandom
Disallow: /Special:Search
Disallow: /Special%3ASearch
Disallow: /Special:Recentchangeslinked/
Disallow: /Special%3ARecentchangeslinked/
Disallow: /index.php?title=Special:Random
Disallow: /index.php?title=Special:%3ARandom
Disallow: /index.php?title=Special:Search
Disallow: /index.php?title=Special:%3ASearch
Disallow: /*action*
Disallow: /*oldid=*
Disallow: /*diff

Crawl-delay: 5           # set to 5 seconds to wait between successive requests to the same server
Request-rate: 1/5         # maximum rate is one page every 5 seconds

# Some bots are known to be trouble, particularly those designed to copy
# entire sites. Please obey robots.txt.
User-agent: sitecheck.internetseer.com
Disallow: /

User-agent: Zealbot
Disallow: /

User-agent: MSIECrawler
Disallow: /

User-agent: SiteSnagger
Disallow: /

User-agent: WebStripper
Disallow: /

User-agent: WebCopier
Disallow: /

User-agent: Fetch
Disallow: /

User-agent: Offline Explorer
Disallow: /

User-agent: Teleport
Disallow: /

User-agent: TeleportPro
Disallow: /

User-agent: WebZIP
Disallow: /

User-agent: linko
Disallow: /

User-agent: HTTrack
Disallow: /

User-agent: Microsoft.URL.Control
Disallow: /

User-agent: Xenu
Disallow: /

User-agent: larbin
Disallow: /

User-agent: libwww
Disallow: /

User-agent: ZyBORG
Disallow: /

User-agent: Download Ninja
Disallow: /

  • 补充:可以根据搜索引擎收录中发现的错误来有针对性进行屏蔽,例如把“Disallow: /index.php?”全部屏蔽。
  • 参考:MediaWiki官方网站上的说明:Manual:Robots.txt
标签:MediaWikiRobots.txt
相关内容:
  1. 2010-11-10 22:20:28 MediaWiki-1.15升级到1.16.0步骤
  2. 2010-11-04 22:52:58 开启MediaWiki的搜索建议(Search Suggest)功能
  3. 2010-11-03 11:26:02 MediaWiki-1.15.0升级到1.16.0中出现的问题
  4. 2010-11-02 23:52:05 MediaWiki-1.15准备升级到1.16
  5. 2010-10-22 22:29:00 想写一本关于MediaWiki的书,有人需要吗?
  6. 2010-09-20 11:33:29 直接操作MediaWiki的MySQL数据库
  7. 2010-09-04 00:20:09 修改模板对付MediaWiki及扩展程序的Bug
  8. 2010-08-31 00:47:49 分割大容量MediaWiki数据库
  9. 2010-07-08 23:08:13 用HTML和站间链接减小MediaWiki数据库记录
  10. 2010-06-12 12:27:01 将数据导入MediaWiki进行到底
  11. 2010-05-20 22:01:46 导入大量名录数据到MediaWiki网站的例子
  12. 2010-05-05 15:06:09 不懂PHP编程也可以修改MediaWiki程序
  13. 2010-04-03 22:45:40 MediaWiki导入XML数据中需要转义的字符
  14. 2010-04-02 00:38:01 用MediaWiki搭建多语言网站群框架
  15. 2010-04-01 16:05:48 在美国VPS上升级MediaWiki

别名:如何设置MediaWiki平台网站的Robots.txt设置Robots.txt来降低MediaWiki网站的负载

关于“设置Robots.txt来降低MediaWiki网站的负载”的留言:

目前暂无留言

新增相关留言