有没有一个库可以跋涉在AJAX / javascript中


Is there a library than can trudge through AJAX/javascript?

我正在使用PHP从网页上抓取一些信息,但是,我发现我试图从页面中抓取的信息是通过某种方式的AJAX/javascript加载的。我以为我记得 Curl 可以遍历 javascript,但我发现事实并非如此。

我似乎记得某种后端"Web浏览器"库/函数,可以通过javascript和AJAX进行跟踪,以获得功能齐全的浏览器将到达的最终页面结果。

是否有可以做到这一点的库或函数?关于如何做到这一点的任何想法,除了必须自己手动跟踪脚本/重定向之外?它不必很漂亮 - 我只是想刮掉结果的文本。

也许不是在php中,而是在其他语言中:Watir/WatiN,Selenium,watir/selenium-webdriver,capybara-webkit,celerity,node.js直接运行js,以及phantomjs。还有iMacros和类似的商业选择。

但我通常发现,只需查看页面发出的请求并重新创建它们/解析响应,我就可以获得我想要的数据,而无需任何这些数据。

我认为

没有这样的库。 如果你真的很绝望,并且你有很多时间在手上,那么你当然可以下载Firefox的源代码,例如,并为自己构建一些有用的东西。 但是,我不认为这将是对您或其他任何人资源的最佳利用。

请注意,即使是谷歌的索引机器人也不处理ajax。 以下是谷歌对此的看法。 您正在处理的网站很可能确实支持此功能,在这种情况下,您可以尝试使用此Google的技术,但总的来说,不幸的是,您不走运。