下午好,我希望你能帮助我,我有一个问题:
我有一个服务器与godaddy(豪华共享),在这个服务器上我有以下内容:
/
——/邮件
——/etc
——/public_html
——/web1
——/web2
——/index . php
——/css
——/img
——/js
——/web3
——/tmp
我正在创建一个机器人。txt文件,我想在web2中没有索引任何东西,refieron我没有任何东西(index.html, css, img, js),但是是的,我想索引其他页面(web1, web3)我怎么能做到这一点?robot。txt文件必须删除吗?在/、/public_html、/web2?
我可以帮助处理文件内容:robot.txt?
非常感谢。
您将使用两个不同的robots.txt文件。一个进入/web1,另一个进入/web2。就爬行器而言,如果/web1是'somedomain.com'的根目录,它们将无法爬上一个文件夹并进入/web2文件夹(或任何其他同级文件夹)。
编辑: robots.txt文件示例
从整个服务器中排除所有机器人(其中"server" == "domain")
User-agent: *
Disallow: /
允许所有机器人完成访问
User-agent: *
Disallow:
(或者只创建一个空的"/robots.txt"文件,或者根本不使用)
将所有机器人从服务器的一部分中排除
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
排除单个机器人
User-agent: BadBot
Disallow: /
允许单个机器人
User-agent: Google
Disallow:
User-agent: *
Disallow: /
因此,/web2
将得到一个robots.txt文件,其中包含:
User-agent: *
Disallow: /
和/web1
和/web3
将得到空的robot.txt文件或
User-agent: *
Disallow:
每个文件夹对应一个域,如果你需要禁用www.web2.com的索引,那么你需要创建robots.txt并将其定位在/web2
User-agent: *
Disallow: /
将robots.txt添加到web1, web3(对于其他域)是可选的。你可以把下面的内容
User-agent: *
Allow: /
一旦完成,您可以验证您的robots.txt,例如在http://www.frobee.com/robots-txt-check
还可以阻止搜索引擎索引,您可以直接在html
中包含以下元标签<meta name="robots" content="noindex" />