先进的PHP爬虫,网站与后端


advance php crawler,website with backend

我的想法是,创建一个网站,从其他来源聚合内容,并显示在一个页面,

说,我列出了10到15个网站,它们处理娱乐新闻我必须抓取网站,然后将数据保存到数据库中,按日期/时间排序的网页上输出内容,必须抓取标题,完整的内容或10,15行,图像,然后链接到原始来源。网站必须每5到10分钟更新一次。在每次更新中,检查新的文章,并在无限滚动的网页中显示标题,文本,图像,原始源链接。我的经验是用php。有什么PHP框架,服务,类可以入手吗?如有任何帮助,我将不胜感激。

谢谢

您是否可以通过使用来自站点的RSS提要来收集相同的信息,而不是抓取页面和屏幕抓取?你应该尽量避免刮屏。

如果您必须刮,请尝试使用DOM解析器,而不是正则表达式。
http://simplehtmldom.sourceforge.net/