检索维基百科文章的第一段


Retrieve first paragraph of Wikipedia article

在过去的两天里,我一直在尝试理解MediaWiki文档,但我不知道如何通过MediaWiki API检索维基百科文章的第一段。

有人能给我指正确的方向吗?

我即将呼吁使用file_get_contents,但我相信有一个"更干净"的解决方案。

file_get_contents非常干净,您可以获得HTML代码。然后可以使用DOMDocument解析html代码。DOMDocument作为javascript工作,例如,您可以在div中获取所有<p>。或者抓住第一个。

例如:

$html = file_get_contents('the url');
$dom = new DomDocument();
@$dom->loadHTML($html);
$p = $dom->getElementsByTagName('p')->item(0)->nodeValue;

不要尝试使用原始API,而是使用客户端包装器。这里有一长串可供选择,全部针对PHP:

http://en.wikipedia.org/wiki/Wikipedia:PHP_bot_framework_table