如何使用cURL从另一个网站获取javascript生成的内容


How to get javascript-generated content from another website using cURL?

基本上,一个页面生成一些动态内容,我想要得到动态内容,而不仅仅是静态html。我不能用cURL做这个。请帮助。

你不能只用cURL。

cURL将从站点获取特定的原始(静态)文件,但是要获得javascript生成的内容,您必须将该内容放入类似浏览器的环境中,该环境支持javascript和javascript使用的所有其他主机对象,以便脚本可以运行。

然后,一旦脚本运行,您将不得不访问DOM以从中获取您想要的任何内容。

这就是为什么大多数搜索引擎不索引javascript生成的内容。这可不容易。


如果这是一个你试图收集信息的特定网站,你可能想看看网站本身是如何获得数据的,看看你是否不能直接从该来源获得数据。例如,是在页面中嵌入在JS中的数据(在这种情况下,您可以解析出JS),还是从ajax调用(在这种情况下,您可以直接进行ajax调用)或其他方法获得的JS。

您可以在http://seleniumhq.org上尝试selenium,它支持js。