关于机器人和内容阻止的几个问题


Couple of questions about robots and content blocking

我正在为机器人配置机器人.txt文件,但无法真正理解我应该阻止它们使用哪些目录。当然,我已经在互联网上阅读了一些信息,但是我想知道的和到目前为止我被发现的之间存在一些差距。所以,如果你能帮助我并回答一些问题,那就太好了:

  • 我应该在机器人.txt阻止机器人做什么?事情没那么简单。例如,我在根目录中有一个PHP文件INDEX(几乎所有内容),dir中带有引擎,称为ADMIN。在这个目录中有很多目录和文件,其中一些实际上是根文件夹中的 INDEX 正在使用的数据。这里的重点是,如果我阻止机器人的 ADMIN 目录,它是否仍然会正常获取从 ADMIN 目录获取的 INDEX 中的所有数据?

  • 和以前一样,有一个带有PHP脚本的INDEX PHP文件,可以为下一页生成自动链接(当然,有限;取决于ADMIN dir中的数据量)。这是否通常被机器人索引为普通链接以及此链接之后的所有数据?

  • 如果我想阻止机器人的 ADMIN dir 和其中的所有文件,写这个就足够了吗?

    User-agent: *
    Disallow: /ADMIN/
    

机器人不关心你的内部服务器端系统(好吧,他们一开始就看不到它)。

他们像人类访问者一样访问您的网站:通过链接(来自您自己的网站,外部网站,从您的站点地图等),有些人可能还会"猜测"URL。

所以重要的是你的网址。

如果您有不希望机器人

访问的 URL("抓取"),请在您的机器人.txt中禁止该 URL。

这个机器人.txt

# hosted at http://example.com/
User-agent: *
Disallow: /ADMIN/

将禁止抓取如下所示的网址:

  • http://example.com/ADMIN/
  • http://example.com/ADMIN/index.html
  • http://example.com/ADMIN/CMS/foo
  • http://example.com/ADMIN/images/foo.png

但仍允许抓取以下网址:

  • http://example.com/ADMIN
  • http://example.com/admin/
  • http://example.com/foo/ADMIN/