他我只是想知道如何不被谷歌或任何搜索引擎或机器人找到。然后我指的是网站的特定页面,比如cms页面。此外,它对在线应用程序来说也很方便,只供一小群人使用,不适合谷歌上的搜索者。
我的大学给了我这个(我被限制,这不是最好的和动态的解决方案):
...
<Files .htaccess>
deny from all
</Files>
RewriteCond %{HTTP_USER_AGENT} ^BlackWidow [OR]
RewriteCond %{HTTP_USER_AGENT} ^Bot' mailto:craftbot@yahoo.com [OR]
RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw [OR]
RewriteCond %{HTTP_USER_AGENT} ^Custo [OR]
RewriteCond %{HTTP_USER_AGENT} ^DISCo [OR]
RewriteCond %{HTTP_USER_AGENT} ^Download' Demon [OR]
RewriteCond %{HTTP_USER_AGENT} ^eCatch [OR]
RewriteCond %{HTTP_USER_AGENT} ^EirGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon [OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailWolf [OR]
RewriteCond %{HTTP_USER_AGENT} ^Express' WebPictures [OR]
RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro [OR]
RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE [OR]
RewriteCond %{HTTP_USER_AGENT} ^FlashGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetRight [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetWeb! [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It [OR]
RewriteCond %{HTTP_USER_AGENT} ^GrabNet [OR]
RewriteCond %{HTTP_USER_AGENT} ^Grafula [OR]
RewriteCond %{HTTP_USER_AGENT} ^HMView [OR]
RewriteCond %{HTTP_USER_AGENT} HTTrack [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Image' Stripper [OR]
RewriteCond %{HTTP_USER_AGENT} ^Image' Sucker [OR]
RewriteCond %{HTTP_USER_AGENT} Indy' Library [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^InterGET [OR]
RewriteCond %{HTTP_USER_AGENT} ^Internet' Ninja [OR]
RewriteCond %{HTTP_USER_AGENT} ^JetCar [OR]
RewriteCond %{HTTP_USER_AGENT} ^JOC' Web' Spider [OR]
RewriteCond %{HTTP_USER_AGENT} ^larbin [OR]
RewriteCond %{HTTP_USER_AGENT} ^LeechFTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mass' Downloader [OR]
RewriteCond %{HTTP_USER_AGENT} ^MIDown' tool [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mister' PiX [OR]
RewriteCond %{HTTP_USER_AGENT} ^Navroad [OR]
RewriteCond %{HTTP_USER_AGENT} ^NearSite [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetAnts [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetSpider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Net' Vampire [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetZIP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Octopus [OR]
RewriteCond %{HTTP_USER_AGENT} ^Offline' Explorer [OR]
RewriteCond %{HTTP_USER_AGENT} ^Offline' Navigator [OR]
RewriteCond %{HTTP_USER_AGENT} ^PageGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^Papa' Foto [OR]
RewriteCond %{HTTP_USER_AGENT} ^pavuk [OR]
RewriteCond %{HTTP_USER_AGENT} ^pcBrowser [OR]
RewriteCond %{HTTP_USER_AGENT} ^RealDownload [OR]
RewriteCond %{HTTP_USER_AGENT} ^ReGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger [OR]
RewriteCond %{HTTP_USER_AGENT} ^SmartDownload [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Surfbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^tAkeOut [OR]
RewriteCond %{HTTP_USER_AGENT} ^Teleport' Pro [OR]
RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web' Image' Collector [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web' Sucker [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebAuto [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebCopier [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebFetch [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebGo' IS [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebLeacher [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebReaper [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebSauger [OR]
RewriteCond %{HTTP_USER_AGENT} ^Website' eXtractor [OR]
RewriteCond %{HTTP_USER_AGENT} ^Website' Quester [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebStripper [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebWhacker [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebZIP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Wget [OR]
RewriteCond %{HTTP_USER_AGENT} ^Widow [OR]
RewriteCond %{HTTP_USER_AGENT} ^WWWOFFLE [OR]
RewriteCond %{HTTP_USER_AGENT} ^Xaldon' WebSpider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Zeus
...
我试着用谷歌搜索这个,但我只找到了让搜索引擎找到页面的信息,我想要相反的信息。
哦,是的,我使用Apache与PHP的组合,我不知道我是否可以在我的PHP脚本中做一些形式来阻止机器人请求。
使用robots.txt文件。看见http://www.robotstxt.org/
你上面的配置很傻。它只适用于你知道的机器人,不适用于任何你不知道的机器人或任何还不存在的机器人。
您需要更清楚地了解您试图阻止的内容。你提到"像一个厘米页面"。这是否意味着您希望登录屏幕也被隐藏?内部CMS页面将始终对机器人程序隐藏,因为机器人程序不(不应该)知道您的用户名/密码。
如果你在没有登录的情况下亲自访问假设的URL www.mycms.com/add_article.php
,那么你是否可以创建一篇文章?如果你的答案是肯定的,那么在你开始担心机器人之前,你还有更多的问题要处理。
如果你发现你的网站带宽被机器人占用,你的同事给你的.htaccess代码只是提供了一个基本的解决方案。有些网站完全致力于揭露这些"坏机器人"。先看看这篇文章http://searchenginewatch.com/article/2067357/Bye-bye-Crawler-Blocking-the-Parasites
如果你做得很好,那么登录页面将是机器人唯一可以访问的页面。如果你想防止机器人访问你的登录页面,请确保你的URL永远不会发布在论坛等公共网站上,因为好的和坏的机器人都会搜索论坛并遵循他们能找到的任何URL。
此外,你在公司内部网上的同事会严格使用这个网站吗?如果是这样的话,那就考虑建立一个仅限内部网的网站/服务器。问问你公司的网络专家,你不会相信这有多容易
你可以研究的最后一件事是:.htpasswd
祝你好运!