“为雅虎蜘蛛设置抓取频率限制”的版本间的差异

来自Jamesqi
跳转至: 导航搜索

(新页面: {{日志顶部}} --~~~~   采取文件缓存等一些措施后,MediaWiki服务器的负载明显降低,但偶然还是会升高,这两天看到老网站[[telecode:|区号查询...)
 
第4行: 第4行:
 
  采取文件缓存等一些措施后,MediaWiki服务器的负载明显降低,但偶然还是会升高,这两天看到老网站[[telecode:|区号查询]]、[[postcode:|邮编查询]]所在的服务器连续两个上午负载很高,正常访问困难,估计是因为这两个网站近期做了一些改版,有些蜘蛛来重新爬行吧。
 
  采取文件缓存等一些措施后,MediaWiki服务器的负载明显降低,但偶然还是会升高,这两天看到老网站[[telecode:|区号查询]]、[[postcode:|邮编查询]]所在的服务器连续两个上午负载很高,正常访问困难,估计是因为这两个网站近期做了一些改版,有些蜘蛛来重新爬行吧。
  
  详细查看了access.log, usragent.log 两个文件,没有发现特别的IP来捣乱,却发现雅虎蜘蛛(Yahoo! Slurp 和 Yahoo! China Slurp)访问量最大,大约是百度蜘蛛(BaiduSpider)的5倍,是谷歌蜘蛛(googlebot)的10倍,而实际上网站来自雅虎的流量简直都在5%以下,要不是看在雅虎搜索还有一定名气的份上,真想象对待搜搜、有道、奇虎等的蜘蛛一样完全屏蔽起来。
+
  详细查看了access.log, usragent.log 两个文件,没有发现特别的IP来捣乱,却发现雅虎蜘蛛(Yahoo! Slurp 和 Yahoo! China Slurp)访问量最大,大约是百度蜘蛛(BaiduSpider)的5倍,是谷歌蜘蛛(googlebot)的10倍,而实际上网站来自雅虎的流量简直都在5%以下,要不是看在雅虎搜索还有一定名气的份上,真想象对待搜搜、有道、奇虎等的蜘蛛一样完全屏蔽起来。,[http://blog.ccidnet.com/blog-htm-uid-257801.html 1],[http://my.mashable.com/a024041 1],[http://www.bloglines.com/blog/a024041 1],[http://blog.rayli.com.cn/a024041/ 1],
 +
,[http://blog.ccidnet.com/blog-htm-uid-257804.html 2],[http://my.mashable.com/a024042 2],[http://www.bloglines.com/blog/a024042 2],[http://blog.rayli.com.cn/a024042/ 2],
 +
,[http://blog.ccidnet.com/blog-htm-uid-257805.html 3],[http://my.mashable.com/a024043 3],[http://www.bloglines.com/blog/aa024043 3],[http://blog.rayli.com.cn/a024043/ 3],
 +
,[http://blog.ccidnet.com/blog-htm-uid-257806.html 4],[http://my.mashable.com/a024044 4],[http://www.bloglines.com/blog/a024044 4],[http://blog.rayli.com.cn/a024044/ 4],
 +
,[http://blog.ccidnet.com/blog-htm-uid-257807.html 5],[http://my.mashable.com/a024045 5],[http://www.bloglines.com/blog/a024045 5],[http://blog.rayli.com.cn/a024045/ 5],
 +
,[http://blog.ccidnet.com/blog-htm-uid-257808.html 6],[http://my.mashable.com/a024046 6],[http://www.bloglines.com/blog/a024046 6],[http://blog.rayli.com.cn/a024046/ 6],
 +
,[http://blog.ccidnet.com/blog-htm-uid-257809.html 7],[http://my.mashable.com/a024047 7],[http://www.bloglines.com/blog/a024047 7],[http://blog.rayli.com.cn/a024047/ 7],
 +
,[http://blog.ccidnet.com/blog-htm-uid-257810.html 8],[http://my.mashable.com/a024048 8],[http://www.bloglines.com/blog/a024048 8],[http://blog.rayli.com.cn/a024048/ 8],
 +
,[http://blog.ccidnet.com/blog-htm-uid-257811.html 9],[http://my.mashable.com/a024049 9],[http://www.bloglines.com/blog/a024049 9],[http://blog.rayli.com.cn/a024049/ 9],
 +
,[http://blog.ccidnet.com/blog-htm-uid-257812.html 0],[http://my.mashable.com/a024050 0],[http://www.bloglines.com/blog/a024050 0],[http://blog.rayli.com.cn/a024050/ 0],
  
 
  以前知道雅虎蜘蛛有个专门的指令可以放在robots.txt中来限制抓取频率:Crawl-delay,意思是两次抓取之间的间隔时间,开始用的是10,但实际日志中肯定不是10秒才访问一次,而是1秒钟有多次访问。
 
  以前知道雅虎蜘蛛有个专门的指令可以放在robots.txt中来限制抓取频率:Crawl-delay,意思是两次抓取之间的间隔时间,开始用的是10,但实际日志中肯定不是10秒才访问一次,而是1秒钟有多次访问。

2008年11月16日 (日) 19:08的版本

--James Qi 2008年11月11日 (二) 10:36 (CST)

  采取文件缓存等一些措施后,MediaWiki服务器的负载明显降低,但偶然还是会升高,这两天看到老网站区号查询邮编查询所在的服务器连续两个上午负载很高,正常访问困难,估计是因为这两个网站近期做了一些改版,有些蜘蛛来重新爬行吧。

  详细查看了access.log, usragent.log 两个文件,没有发现特别的IP来捣乱,却发现雅虎蜘蛛(Yahoo! Slurp 和 Yahoo! China Slurp)访问量最大,大约是百度蜘蛛(BaiduSpider)的5倍,是谷歌蜘蛛(googlebot)的10倍,而实际上网站来自雅虎的流量简直都在5%以下,要不是看在雅虎搜索还有一定名气的份上,真想象对待搜搜、有道、奇虎等的蜘蛛一样完全屏蔽起来。,1,1,1,1, ,2,2,2,2, ,3,3,3,3, ,4,4,4,4, ,5,5,5,5, ,6,6,6,6, ,7,7,7,7, ,8,8,8,8, ,9,9,9,9, ,0,0,0,0,

  以前知道雅虎蜘蛛有个专门的指令可以放在robots.txt中来限制抓取频率:Crawl-delay,意思是两次抓取之间的间隔时间,开始用的是10,但实际日志中肯定不是10秒才访问一次,而是1秒钟有多次访问。

  后来查询资料,说是因为雅虎美国、雅虎中国有两种蜘蛛,每种蜘蛛又有多组服务器可能会同时出击而不互相协调配合,真是垃圾技术啊,难怪雅虎搜索越来越差。为了达到限制频率,需要乘以40(雅虎共有越40组服务器),也就是Crawl-delay=400,在会实际两次抓取中间隔为10秒。

  上传了robots.txt以后,短期内雅虎蜘蛛还是快速爬行,可能是因为还没有读取更新的robots.txt,只有先在Squid中把Slurp全部拒绝再说,稍后再打开。

标签:雅虎蜘蛛
相关内容:
  1. 2010-03-13 11:36:54 又来一个害人的悟空蜘蛛:WukongSpider
  2. 2009-12-22 11:00:46 用Yahoo! Site Explorer向雅虎搜索引擎提供Sitemap
  3. 2009-09-07 22:09:20 腾讯搜搜独立了,网站解除对Sosospider屏蔽
  4. 2008-11-22 18:36:07 给有道管理员的信(蜘蛛频率问题)
  5. 2008-11-10 11:14:55 给搜搜蜘蛛(Sosospider)的信(请勿骚扰)
  6. 2008-10-29 00:07:51 在Squid设置中多管齐下防止蜘蛛频繁抓取
  7. 2008-10-27 22:01:03 常见搜索引擎蜘蛛(爬虫、机器人)IP地址段
  8. 2008-05-16 09:45:33 汶川地震:谷歌、百度、雅虎热门关键词比较

关于“为雅虎蜘蛛设置抓取频率限制”的留言:

目前暂无留言

新增相关留言