从安全网站获取特定数据


Get specific data from secured websites

我有几个网站,我定期检查这些网站以比较产品价格。自动取款机 我必须手动登录并在每个网站上按产品ID搜索,以获取产品详细信息(价格)。

一段时间后,这既耗时又无聊。

我正在考虑制作一个 Web 应用程序,您可以在其中使用我的登录凭据进入所有这些网站。我只需要输入一个产品ID,我的网络应用程序应该从这些网站获取所有结果,并以可比较的方式显示它们。

我不认为这些网站有API,所以我正在寻找解决这个问题的最佳方法。我认为这不是那么简单,因为我需要登录+搜索产品。

关于如何实现此目的的任何建议?

谢谢!

+1 到 Marc B 的评论。如果 TOS 没有明确禁止它(并且由于这也将被视为爬虫),您应该查看/robots.txt是否允许您访问产品搜索。如果两者都不禁止你,我建议使用基于浏览器的机器人为你获取结果,仅仅是因为它听起来更实用,而且你不必处理cookie。

如果你想用PHP发出页面请求,我会引导你到HttpRequest。有一个页面,您可以在其中登录所有站点(在登录脚本上使用 POST 请求),并将返回的会话 cookie 放在手边。当您搜索产品页面时,确定 HTML 的哪个部分始终返回其后的产品列表(正则表达式可能会有所帮助),并创建一个算法(对于您要抓取的每个网站都应该不同)来返回有关产品的信息。然后比较结果!