如何获取维基百科页面的HTML内容文本(通过维基百科API)


How to get HTML content text of a Wikipedia Page (via Wikipedia API)?

我只想获取内容(没有链接,没有类别,没有图像...只是文本)

没有办法从维基百科API中获取"只是文本"。您可以下载页面的 HTML(如果您通过.php索引而不是 api.php 执行此操作,请使用 action=render 以避免下载所有皮肤内容)或 wiki文本(您可以通过 API 或将action=raw传递给 index.php);然后,您必须自己解析它以删除您不想保留的位。

在HTML输出中,MediaWiki通常擅长将类添加到您可能想要过滤掉的各种界面元素中;用户创建的模板等可能不那么重要(例如,表格排序的黑客只是将一些文本放在一个display:none范围内,没有类)。

要通过API获取wiki文本,请使用prop=revisions。要获取呈现的 HTML,请使用 action=parse