PHPBB Robots.txt Rules?


PHPBB Robots.txt Rules?

我目前正在编辑我的Robots.txt,它看起来像这样:

User-agent: *
Disallow: /adm/*
Disallow: /download/*
Disallow: /cache
Disallow: /files
Disallow: /viewforum.php?f=146
Disallow: /ucp.php
Disallow: /mcp.php
Disallow: /memberlist.php
Disallow: /config.php
Disallow: /cron.php
Disallow: /faq.php
Disallow: /report.php
Sitemap: http://www.website.com/app.php/sitemap.xml

我想知道如何正确地做一些事情。

1)这会正确地阻止搜索引擎访问论坛区域吗?

Disallow: /viewforum.php?f=146

我想要一个区域隐藏从搜索引擎,但其余的论坛区域完全可读的正常。

2)你如何阻止访问内部PHPBB文件夹和保持搜索引擎的管理?这些规则正确吗?

Disallow: /adm/*
Disallow: /download/*

3)是否为php文件的规则工作正确?

Disallow: /ucp.php

还有什么我应该知道或做的吗?

Disallow: /viewforum.php?f=146

禁止抓取路径 /viewforum.php?f=146开头的url。

这样的url是不允许被抓取的:

  • http://example.com/viewforum.php?f=146
  • http://example.com/viewforum.php?f=1461
  • http://example.com/viewforum.php?f=146a
  • http://example.com/viewforum.php?f=146/foo
  • http://example.com/viewforum.php?f=146&bar

(当然,/ucp.php/adm//download/的工作原理是一样的。注意,这意味着不需要附加的*,除非它实际上是URL的一部分。

所以如果论坛概述是在http://example.com/viewforum.php?f=146,它将被阻止。但是,请注意,也有可能从不同的URL访问同一页面,例如:http://example.com/viewforum.php?someOtherParameter&f=146

还要注意,这并不一定会阻止该论坛区域中的论坛线程的爬行(因为它们通常不会从此路径开始)。虽然符合规则的机器人不会抓取这个论坛区域页面,但它们可能会从其他地方找到链接。

您只能通过robots.txt禁用目录,而不是文件。首先,从目录中删除星号。

Disallow: /adm/
Disallow: /download/

对于文件,您可以将此添加到

节。它不会阻止机器人抓取,但好的机器人应该忽略它,继续前进。
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">