我目前正在编辑我的Robots.txt,它看起来像这样:
User-agent: *
Disallow: /adm/*
Disallow: /download/*
Disallow: /cache
Disallow: /files
Disallow: /viewforum.php?f=146
Disallow: /ucp.php
Disallow: /mcp.php
Disallow: /memberlist.php
Disallow: /config.php
Disallow: /cron.php
Disallow: /faq.php
Disallow: /report.php
Sitemap: http://www.website.com/app.php/sitemap.xml
我想知道如何正确地做一些事情。
1)这会正确地阻止搜索引擎访问论坛区域吗?
Disallow: /viewforum.php?f=146
我想要一个区域隐藏从搜索引擎,但其余的论坛区域完全可读的正常。
2)你如何阻止访问内部PHPBB文件夹和保持搜索引擎的管理?这些规则正确吗?
Disallow: /adm/*
Disallow: /download/*
3)是否为php文件的规则工作正确?
Disallow: /ucp.php
还有什么我应该知道或做的吗?
Disallow: /viewforum.php?f=146
禁止抓取路径以 /viewforum.php?f=146
开头的url。
这样的url是不允许被抓取的:
-
http://example.com/viewforum.php?f=146
-
http://example.com/viewforum.php?f=1461
-
http://example.com/viewforum.php?f=146a
-
http://example.com/viewforum.php?f=146/foo
-
http://example.com/viewforum.php?f=146&bar
- …
(当然,/ucp.php
、/adm/
和/download/
的工作原理是一样的。注意,这意味着不需要附加的*
,除非它实际上是URL的一部分。
所以如果论坛概述是在http://example.com/viewforum.php?f=146
,它将被阻止。但是,请注意,也有可能从不同的URL访问同一页面,例如:http://example.com/viewforum.php?someOtherParameter&f=146
还要注意,这并不一定会阻止该论坛区域中的论坛线程的爬行(因为它们通常不会从此路径开始)。虽然符合规则的机器人不会抓取这个论坛区域页面,但它们可能会从其他地方找到链接。
您只能通过robots.txt禁用目录,而不是文件。首先,从目录中删除星号。
Disallow: /adm/
Disallow: /download/
对于文件,您可以将此添加到
节。它不会阻止机器人抓取,但好的机器人应该忽略它,继续前进。<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">