从维基百科的文章中获取描述


Fetch the description from wikipedia from an article

我正试图通过:http://en.wikipedia.org/w/api.php?action=parse&page=Petunia&format=xml对维基百科进行API调用,但xml中充满了html和css标签。

是否有一种方法来获取只有纯文本没有标签?谢谢!

*编辑1:

$json = json_decode(file_get_contents('http://en.wikipedia.org/w/api.php?action=parse&page=Petunia&format=json'));
$txt  = strip_tags($json->text);
var_dump($json);
零显示。

问题在这里有部分答案

$url = 'http://en.wikipedia.org/w/api.php?action=parse&page=Petunia&format=json&prop=text';
$ch = curl_init($url);
curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt ($ch, CURLOPT_USERAGENT, "TestScript"); // required by wikipedia.org server
$c = curl_exec($ch);
$json = json_decode($c);
var_dump(strip_tags($json->{'parse'}->{'text'}->{'*'}))

我不能使用file_get_contents,但它与cURL工作得很好。

可以使用xml从wikipedia获取信息或描述。

$url =" http://en.wikipedia.org/w/api.php?action=opensearch&search=".$term."&format=xml&limit=1";$ch = curl_init($url);curl_setopt($ch, CURLOPT_HTTPGET, TRUE);curl_setopt($ch, CURLOPT_POST, FALSE);curl_setopt($ch, CURLOPT_HEADER, false);//根据需要添加headcurl_setopt($ch, CURLOPT_NOBODY, FALSE);//返回主体curl_setopt($ch, CURLOPT_VERBOSE, FALSE);//最小化日志curl_setopt($ch, CURLOPT_REFERER, ");//引用值curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);//无证书curl_setopt($ch, CURLOPT_FOLLOWLOCATION, TRUE);//遵循重定向curl_setopt($ch, CURLOPT_MAXREDIRS, 4);//将重定向限制为4curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);//返回字符串curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows;U;Windows NT 6.1;他;rv:1.9.2.8) Gecko/20100722 Firefox/3.6.8");//Webbot名称$page = curl_exec($ch);$xml = simplexml_load_string($page);如果((string) $ xml - ->项目->>部分描述){print_r(阵列((字符串)$ xml -> ->项目->文本部分,(字符串)$ xml -> ->项目->描述部分,(字符串)$ xml -> ->项目-> Url)节);} else {回声"对不起";} 之前

但是curl必须安装在服务器上…