我想将"美利坚合众国"的所有内容grep到一个没有图像的文本文件中。我正在寻找文本格式的回复。
我该怎么做?我构建了这个网址:http://en.wikipedia.org/w/api.php?format=xml&action=query&titles=united_states&prop=revisions&rvprop=content
但我没有得到我想要的。也许我错过了一些基本的东西。
-
如何获取我在查询中给出的任何字符串的内容?请帮我处理网址。
-
我正在尝试将其放在文本文件中。我可以以文本格式获得响应吗?除了XML和JSON?
-
在美国的例子中,我想得到城市的第一列 主要人口中心.是否可以获取该信息(或)我应该使用解析器?
如果你只需要文章的文本,action=raw
比使用 API 简单得多:
http://en.wikipedia.org/wiki/United_States?action=raw&ctype=text/css
或
http://en.wikipedia.org/wiki/United_States?action=raw&ctype=text/css&templates=expand
( 仅当您想在浏览器中打开它时,ctype=text/css
才重要。
目前尚不清楚您在第 3 点中所说的是什么,但如果您想从表中提取数据,最好的选择可能是获取呈现的 (HTML) 内容并使用某种 DOM 解析器(并密切关注维基数据,这将使事情在几个月内变得更加简单)。