我正在抓取一个谷歌播放链接,以获取一些信息来检索应用程序名称。
问题是有些应用程序返回不可读的字符。
$div2 = $div->getElementsByTagName("div");
if ($div2->length)
{
$gpAppName = DOMinnerHTML($div2->item(0));
$counter++;
if(checkIfMaxedOutAndReturn($counter)){
buildObjAndReturn($gpIcon,$gpBg,$gpAppName,$gpBtnLink);
}
}
function DOMinnerHTML($element)
{
$innerHTML = "";
$children = $element->childNodes;
foreach ($children as $child)
{
$tmp_dom = new DOMDocument('1.0','UTF-8');
$tmp_dom->appendChild($tmp_dom->importNode($child, true));
$innerHTML.=trim($tmp_dom->saveHTML());
}
return $innerHTML;
}
报废页面时:https://play.google.com/store/apps/details?id=com.vascogames.TransportTruck,您在此处看到的代码将刮取应用程序名称,即"卡车司机-货物交付",但代码返回"卡车司机€;“;货物交付"
这很棘手,底层的libxml2库查找指定编码的HTML标记,而Google Play页面没有提供任何标记。这里有一个快速的解决方案,可以在解析源之前将元标签注入源中:
<?php
$url = 'https://play.google.com/store/apps/details?id=com.vascogames.TransportTruck';
$source = file_get_contents($url);
$source = str_replace(
'<head>',
'<head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8">',
$source
);
$dom = new DOMDocument;
@$dom->loadHTML($source);
$divs = $dom->getElementsByTagName('div');
foreach ($divs as $div) {
if ($div->getAttribute('class') === 'document-title') {
echo trim($div->textContent);
echo "'n";
}
}