如何判断页面是否允许机器人 - How can I tell if a page allows bots?

How can I tell if a page allows bots?

我正在尝试创建一个机器人程序，检查特定URL是否有特定内容。然而，当我运行它时，我一直收到一个"HTTP重定向循环"错误

我唯一能怀疑的是这个页面不允许机器人。有没有什么方法可以判断页面是否不允许机器人？我已经在谷歌上搜索过了，但还没有找到答案。

编辑

在检查了一些东西之后，这就是robots.txt所说的：

User-agent: *
Disallow: /advsched/

我还注意到，当我在浏览器中禁用cookie并访问页面时，会出现"HTTP重定向循环"错误。所以据我所知，我试图访问的页面不允许机器人。然而，根据我对cURL函数的理解，只要我的用户代理是这样的：

Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.2) Gecko/20090729 Firefox/3.5.2 GTB5

该网站无法判断我是否是机器人。只剩下一件事——饼干。我知道cURL函数可以处理cookie，但它们能处理它们让我看起来像标准用户吗？我还没能让它发挥作用。

你说不出来。

什么是机器人？服务器如何知道？通常，标识信息在客户端在请求期间发送的User-Agent报头中。然而，没有要求某些服务器在一般级别上阻止"机器人"。假设他们只想屏蔽谷歌？

Mario关于检查robots.txt的建议很好。网站所有者通常会制定规则，规定机器人可以访问什么，以及如何处理抓取的信息。不过，这与你的重定向无关。

检查/robots.txt并解释其内容。

说明位于http://robotstxt.org/