我想做一个解析wiki页面并从中获取所需信息的项目。我检查了一些爬网程序和dom解析器,比如nutch apache爬网程序和简单的dom解析器。使用核心php解析wiki页面非常缓慢。
但是我不能从得到
-
我可以使用哪些工具来获得最佳优化结果?
-
如何将类似nutch的crawler与php集成?
-
如何将从爬网程序获取的数据存储在mysql中?
-
如何组织从爬网程序获取的数据?
-
我必须学习哪一级的正则表达式?
我是新手,在爬行类项目。
提前感谢您宝贵的时间。不知道为什么人们关闭了我的问题。请重新打开它。
维基百科上有一个内置的媒体维基API,还有一些关于使用的PHP示例
web服务API提供对数据的直接、高级访问包含在MediaWiki数据库中。客户端程序可以登录到wiki,获取数据,并通过发出HTTP请求自动发布更改到web服务。