祁劲松的维客空间 - Wiki of James Qi

网站通知:新版博客请访://jamesqi.com/

将数据导入MediaWiki进行到底

--James Qi 2010年6月12日 (六) 12:27 (CST)

  2006年接触MediaWiki后就曾经用XML格式批量导入过数据,确实是非常方便,不过当数据量大了的时候,会遇到很多问题,例如:导入速度慢、数据库过大、原始数据不规范、数据出错、访问太慢、格式不好改等。

  在实用查询中曾经导入数万条,在查号吧中曾经导入数十万条,效果都还不错。上面说遇到的一些问题,也通过设置分割文件同时导入、扩充硬件设备、编程预处理数据、文本统一替换、多级缓存、设置模板等办法来逐一解决。

  去年我们的人工搜索等网站发展不错,是将每一个页面都认真做好质量、热门信息快速满足浏览者需求,求精不求多,但今年以来被ZF相关部门的清理互联网行动多次整治,流量下降得非常厉害,难以持续发展。在当前的互联网环境下真是无语,只有设法多发展其它项目了。

  转型中想到在设法批量产生更多数据上下功夫,今年初在邮编库中导入了100多万条数据,算是比以前的数万、数十万有一个数量级上的提示,因为需要等待搜索引擎收录和展示以及浏览用户发现变化,所以效果不会立竿见影,但也会逐步显现出来。通过几个月的观察,上百万条数据导入是MediaWiki系统可以承受的。

  于是新设立名录集的设想也付诸实施,先是导入数万、数十万条的数据,后来导入上百万条,以致按照省份分为数十个数据库加起来上千万条的数据,这些数据量实在太大了,按照1秒/条的导入速度估算需要200天时间不断导入,这时间太长了,就分为多个库同时导入,最多的时候在三台服务器上同时导入近20个xml文件,争取在7月份世界杯结束前全部导入完成。目前已经导入了一部分,从几十个外部数据库生成好几百万条数据,导入几十个MediaWiki网站,有几千个MySQL表,记录数应该上亿或者上十亿,占用磁盘空间10G以上,如果全部生成file cache的静态HTML文件会超过100G。

  还有一些姓名等其它数据也在考虑导入MediaWiki系统,当数据量足够大的时候长尾效应也会逐步显现出来,这些超大量的数据不仅对网友有用,也构建起竞争门槛,其它网站就是复制都难以进行。

  先批量导入已有数据,再逐步开放网友留言和编辑,形成真正有用的大量信息,这也许是国内发展Wiki网站的一个好办法。

标签:MediaWiki
相关内容:
  1. 2010-11-10 22:20:28 MediaWiki-1.15升级到1.16.0步骤
  2. 2010-11-04 22:52:58 开启MediaWiki的搜索建议(Search Suggest)功能
  3. 2010-11-03 11:26:02 MediaWiki-1.15.0升级到1.16.0中出现的问题
  4. 2010-11-02 23:52:05 MediaWiki-1.15准备升级到1.16
  5. 2010-10-22 22:29:00 想写一本关于MediaWiki的书,有人需要吗?
  6. 2010-09-20 11:33:29 直接操作MediaWiki的MySQL数据库
  7. 2010-09-04 00:20:09 修改模板对付MediaWiki及扩展程序的Bug
  8. 2010-08-31 00:47:49 分割大容量MediaWiki数据库
  9. 2010-07-08 23:08:13 用HTML和站间链接减小MediaWiki数据库记录
  10. 2010-05-20 22:01:46 导入大量名录数据到MediaWiki网站的例子
  11. 2010-05-05 15:06:09 不懂PHP编程也可以修改MediaWiki程序
  12. 2010-04-03 22:45:40 MediaWiki导入XML数据中需要转义的字符
  13. 2010-04-02 00:38:01 用MediaWiki搭建多语言网站群框架
  14. 2010-04-01 16:05:48 在美国VPS上升级MediaWiki

关于“将数据导入MediaWiki进行到底”的留言:

新增留言

--222.244.97.148 (IP 位置 | 谁是 | 贡献) 2017年5月17日 (三) 21:04 (CST)

留言: 如何批量导入数据?可以指导下吗?谢谢

回复:您好!在maintenance目录下用php importDump.php导入xml格式的文件,具体您可以看importDump.php这个文件中写的用法、参考mediawiki官方网站中的说明以及google搜索相关关键词。--James Qi讨论) 2017年5月20日 (六) 21:14 (CST)

新增相关留言