如何通过代理处理外部网站的IP块


How to tackle IP blocks of an external website with proxies?

我正在做一个抓取项目,从一个网站提取web数据。我做了一个脚本,通过url和解析HTML内容,并得到结构化的内容到我的数据库。脚本工作正常,但最近脚本卡住了,在调查中发现目标网站正在阻止我们的IP。

我使用PHP/CURL为这个项目,现在我得到一个403错误-访问禁止,错误在一个web请求。这影响了我的脚本的工作,没有页面可以从web请求检索,每次我得到一个访问限制错误。

我知道有很多刮痧礼仪要遵守。由于我们无法预见他们是如何实现安全特性的,我对规范web请求调用感到困惑。我正在使用一个具有弹性IP的amazon AWZ实例,因此我对他们何时/是否会解除对我的IP的禁令感到困惑。

我听说过使用旋转代理方法来抓取,这样目标服务器就不会经常阻止你。但我不确定它的实现。

任何帮助将是非常感激的。如有需要,我可以提供更多的信息。

登录到站点获取API id。

,如果您向带有API id和URL的站点发送请求。它将使用随机API向所需的URL发送请求并返回响应。

请登录并尝试一下

注册