关于机器人和内容阻止的几个问题 - Couple of questions about robots and content blocking

Couple of questions about robots and content blocking

本文关键字：几个问题机器人 | 更新日期: 2023-09-27

我正在为机器人配置机器人.txt文件，但无法真正理解我应该阻止它们使用哪些目录。当然，我已经在互联网上阅读了一些信息，但是我想知道的和到目前为止我被发现的之间存在一些差距。所以，如果你能帮助我并回答一些问题，那就太好了：

我应该在机器人.txt阻止机器人做什么？事情没那么简单。例如，我在根目录中有一个PHP文件INDEX（几乎所有内容），dir中带有引擎，称为ADMIN。在这个目录中有很多目录和文件，其中一些实际上是根文件夹中的 INDEX 正在使用的数据。这里的重点是，如果我阻止机器人的 ADMIN 目录，它是否仍然会正常获取从 ADMIN 目录获取的 INDEX 中的所有数据？
和以前一样，有一个带有PHP脚本的INDEX PHP文件，可以为下一页生成自动链接（当然，有限;取决于ADMIN dir中的数据量）。这是否通常被机器人索引为普通链接以及此链接之后的所有数据？
如果我想阻止机器人的 ADMIN dir 和其中的所有文件，写这个就足够了吗？
```
User-agent: *
Disallow: /ADMIN/
```

机器人不关心你的内部服务器端系统（好吧，他们一开始就看不到它）。

他们像人类访问者一样访问您的网站：通过链接（来自您自己的网站，外部网站，从您的站点地图等），有些人可能还会"猜测"URL。

所以重要的是你的网址。

如果您有不希望机器人

访问的 URL（"抓取"），请在您的机器人.txt中禁止该 URL。

这个机器人.txt

# hosted at http://example.com/
User-agent: *
Disallow: /ADMIN/

将禁止抓取如下所示的网址：

但仍允许抓取以下网址：