在理解如何使用 DOMDocument 时遇到问题


Having problems understanding how to use DOMDocument

我正在尝试将html页面转换为dom对象,以便从页面中获取信息

下面的代码只给了我错误,所以无论我做什么都是错误的

PHP代码

$page = file_get_contents('http://google.com');
$dom= new DOMDocument();
$dom->loadHTML($page);
echo $dom->saveHTML(); 
return;

错误示例

Warning: DOMDocument::loadHTML() [domdocument.loadhtml]: htmlParseEntityRef: expecting ';' in Entity, line: 34 in C:'xampp'htdocs'site'index.php on line 32

谁能告诉我我应该做什么?

老实说,我不知道这是否会解决您的问题,但请尝试以下操作。使用整洁来清理 html。

$page = file_get_contents('http://google.com');
// Specify configuration
$config = array(
           'indent'         => true,
           'output-xhtml'   => true,
           'wrap'           => 200);
// Tidy
$tidy = new tidy();
$tidy->parseString($page, $config, 'utf8');
$tidy->cleanRepair();

$dom= new DOMDocument();
$dom->loadHTML($tidy);
echo $dom->saveHTML(); 
return;