祁劲松的维客空间 - Wiki of James Qi

网站通知:新版博客请访://jamesqi.com/

让搜索引擎新收录1000万个页面

--James Qi 2010年7月8日 (四) 22:42 (CST)

  前1、2个月将大量名录数据导入名录集这个网站,前1、2周又进行了全面的功能完善、模板更新。因为数据量特别大,达到前所未有的1000万数量级,所以数据导入、模板更新工作费时特别长,动用了可以动用的多台服务器并行工作,才算是缩短了一些时间。

  光是网站自己有数据是没有用的,还要让搜索引擎收录这些页面才能带来流量,将各个子网站在Google、百度中的收录情况统计了一下,Google比较平均但偏少、百度总体较多但有部分子网站收录为0。

  从Google网站管理员工具中查看,Google的抓取很慢,默认大约是333秒1页,这样一天只能抓取200多个页面,这根本没有办法抓取庞大的数据,于是在管理员工具中修改抓取速度,改为32秒-2秒1页,这样数据量最多的子网站100万页最快有可能在20多天内抓取完,所有子网站都同时抓取。从实际调整来看,Google很快就按照新的设置来工作了,这几天服务器都是满负荷在运行,对付Google Bot的密集抓取。

  对于百度来说,就把还没有收录的子域名进行提交收录,但百度目前还没有标准的sitemap提交办法,前一阵子有个百度站长平台还处在内测期间,我也没有邀请码,还没有试过。据说有sitemap提交及抓取速度修改的功能,希望这个平台能早日开放使用。

  以前的网站有些数据量也很大,但比起这次的名录集网站来说还存在1到2个数量级上的差距,以前的网站收录量多的也只有几十万页,这次是否能达到收录几百万甚至上千万,还要看后面的实际情况了。这样级别的数据量对MediaWiki、对MySQL、对服务器都是考验,甚至对人的耐心都是考验,不过如果一旦经受住了考验,将会打开一条新路。

标签:搜索引擎收录SEO
相关内容:
  1. 2010-08-16 23:06:20 百度发布SEO指南1.0版
  2. 2009-12-26 11:34:54 禁止搜索引擎收录维客网站(MediaWiki平台)的讨论(Talk)页面
  3. 2009-12-22 11:00:46 用Yahoo! Site Explorer向雅虎搜索引擎提供Sitemap
  4. 2009-12-21 17:43:56 向微软的Bing搜索引擎提供Sitemap
  5. 2009-09-14 23:05:24 继续做减法:删除网站中的重复内容页面
  6. 2009-09-07 22:09:20 腾讯搜搜独立了,网站解除对Sosospider屏蔽
  7. 2009-06-02 12:01:02 5月份谷歌收录变化分析
  8. 2009-04-15 09:32:03 近期在当当网购买的一些网络技术相关书籍
  9. 2009-03-26 23:14:01 关于Sitemaps网站地图的笔记
  10. 2009-01-03 16:59:27 在我的日志中也加上“别名”功能
  11. 2008-12-11 09:54:06 有查不到的电话区号?到这里来解决!
  12. 2008-11-10 10:55:56 给百度管理员的信(收录问题)
  13. 2008-10-31 00:05:45 邮编区号老网站还可以继续优化升级
  14. 2008-10-29 00:07:51 在Squid设置中多管齐下防止蜘蛛频繁抓取

关于“让搜索引擎新收录1000万个页面”的留言:

目前暂无留言

新增相关留言