让搜索引擎新收录1000万个页面
来自Jamesqi
--James Qi 2010年7月8日 (四) 22:42 (CST)
前1、2个月将大量名录数据导入名录集这个网站,前1、2周又进行了全面的功能完善、模板更新。因为数据量特别大,达到前所未有的1000万数量级,所以数据导入、模板更新工作费时特别长,动用了可以动用的多台服务器并行工作,才算是缩短了一些时间。
光是网站自己有数据是没有用的,还要让搜索引擎收录这些页面才能带来流量,将各个子网站在Google、百度中的收录情况统计了一下,Google比较平均但偏少、百度总体较多但有部分子网站收录为0。
从Google网站管理员工具中查看,Google的抓取很慢,默认大约是333秒1页,这样一天只能抓取200多个页面,这根本没有办法抓取庞大的数据,于是在管理员工具中修改抓取速度,改为32秒-2秒1页,这样数据量最多的子网站100万页最快有可能在20多天内抓取完,所有子网站都同时抓取。从实际调整来看,Google很快就按照新的设置来工作了,这几天服务器都是满负荷在运行,对付Google Bot的密集抓取。
对于百度来说,就把还没有收录的子域名进行提交收录,但百度目前还没有标准的sitemap提交办法,前一阵子有个百度站长平台还处在内测期间,我也没有邀请码,还没有试过。据说有sitemap提交及抓取速度修改的功能,希望这个平台能早日开放使用。
以前的网站有些数据量也很大,但比起这次的名录集网站来说还存在1到2个数量级上的差距,以前的网站收录量多的也只有几十万页,这次是否能达到收录几百万甚至上千万,还要看后面的实际情况了。这样级别的数据量对MediaWiki、对MySQL、对服务器都是考验,甚至对人的耐心都是考验,不过如果一旦经受住了考验,将会打开一条新路。
标签:搜索引擎、收录、SEO。 |
相关内容:
|