如何判断页面是否允许机器人


How can I tell if a page allows bots?

我正在尝试创建一个机器人程序,检查特定URL是否有特定内容。然而,当我运行它时,我一直收到一个"HTTP重定向循环"错误

我唯一能怀疑的是这个页面不允许机器人。有没有什么方法可以判断页面是否不允许机器人?我已经在谷歌上搜索过了,但还没有找到答案。

编辑

在检查了一些东西之后,这就是robots.txt所说的:

User-agent: *
Disallow: /advsched/

我还注意到,当我在浏览器中禁用cookie并访问页面时,会出现"HTTP重定向循环"错误。所以据我所知,我试图访问的页面不允许机器人。然而,根据我对cURL函数的理解,只要我的用户代理是这样的:

Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.2) Gecko/20090729 Firefox/3.5.2 GTB5

该网站无法判断我是否是机器人。只剩下一件事——饼干。我知道cURL函数可以处理cookie,但它们能处理它们让我看起来像标准用户吗?我还没能让它发挥作用。

你说不出来。

什么是机器人?服务器如何知道?通常,标识信息在客户端在请求期间发送的User-Agent报头中。然而,没有要求某些服务器在一般级别上阻止"机器人"。假设他们只想屏蔽谷歌?

Mario关于检查robots.txt的建议很好。网站所有者通常会制定规则,规定机器人可以访问什么,以及如何处理抓取的信息。不过,这与你的重定向无关。

检查/robots.txt并解释其内容。

说明位于http://robotstxt.org/