抓取用javascript注入的html


scraping html injected with javascript

解析通过JavaScript插入HTML的HTML页面的最佳实践是什么?查看源时,以下页面的"地块"报告不会显示表格或表格数据。我的最佳猜测是,这是由于表是通过JavaScript插入的。那么,在这种情况下,什么是抓取这些数据的好方法呢?

我希望将文件转储为字符串,并使用类似的方法打印表格,但我愿意听取任何建议。

 $html_import = ???
 $html->loadHTML($html_import);
 $td = $html->getElementsByTagname('td');
 foreach($td as $tds) {
 printf(" * %s'n", $tds->textContent);
 echo '<br>';

}

如果您查看页面加载时发出的HTTP请求,您将看到AJAX请求熄灭。

GET http://gis.catawbacountync.gov/_rest/v0/ws_ims_attribute_query.php?parameters=pinc+%3D+%27374219517154%27&table=ws_parcel_report3&fields=*&orderby=&format=json

这就是实际检索所需数据的内容。如果你可以访问API,你可以很容易地获得你想要的信息。

由于这是一个政府网站,我怀疑他们需要向您提供这些信息,从而提供API。

如果你只是试图通过试错来拼凑API,请确保你没有违反任何使用条款。