我只想获取内容(没有链接,没有类别,没有图像...只是文本)
没有办法从维基百科API中获取"只是文本"。您可以下载页面的 HTML(如果您通过.php索引而不是 api.php 执行此操作,请使用 action=render
以避免下载所有皮肤内容)或 wiki文本(您可以通过 API 或将action=raw
传递给 index.php);然后,您必须自己解析它以删除您不想保留的位。
在HTML输出中,MediaWiki通常擅长将类添加到您可能想要过滤掉的各种界面元素中;用户创建的模板等可能不那么重要(例如,表格排序的黑客只是将一些文本放在一个display:none
范围内,没有类)。
要通过API获取wiki文本,请使用prop=revisions
。要获取呈现的 HTML,请使用 action=parse
。