如何获取维基百科页面的HTML内容文本(通过维基百科API） - How to get HTML content text of a Wikipedia Page (via Wikipedia API)?

How to get HTML content text of a Wikipedia Page (via Wikipedia API)?

我只想获取内容（没有链接，没有类别，没有图像...只是文本）

没有办法从维基百科API中获取"只是文本"。您可以下载页面的 HTML（如果您通过.php索引而不是 api.php 执行此操作，请使用 action=render 以避免下载所有皮肤内容）或 wiki文本（您可以通过 API 或将action=raw传递给 index.php）;然后，您必须自己解析它以删除您不想保留的位。

在HTML输出中，MediaWiki通常擅长将类添加到您可能想要过滤掉的各种界面元素中;用户创建的模板等可能不那么重要（例如，表格排序的黑客只是将一些文本放在一个display:none范围内，没有类）。

要通过API获取wiki文本，请使用prop=revisions。要获取呈现的 HTML，请使用 action=parse 。