从动态网页中提取文本


Extract text from a dynamic web-page

我的需要是,如果我给了一个网页的URL,我必须提取所有的文本从中。现在有一个例子,当你向下滚动到最后的时候,网页会加载得更远,就像fb的时间轴一样。我怎么能从这些网页程序提取文本?

从网页中获取动态加载的内容变得越来越复杂。

一个建议是,打开你的浏览器开发面板,看看网络选项卡。如果您能够破译AJAX调用背后的逻辑,那么您就可以自己调用这些url,例如使用php file_get_contents。比如http://url.com/morecontent.php?offset=20

另一个建议是使用像phantom.js这样的无头浏览器,它包含自己的javascript引擎,可以通过编程控制- http://phantomjs.org/

您可以使用cURL。下面是示例代码:

使用cURL从URL获取数据或内容