我有一个在线工具,可以跟踪任务和用户完成任务的情况。作为过程的一部分,我记录了CCD_ 1。然而,偶尔我会收到各种机器人和爬虫的访问。如何在不"伤害他们的感情"的情况下,温和地将他们转移到其他地方?
我在想我应该用机器人的名字建立一个数组,并根据它运行每个AGENT信息,如果在数组中找到,重定向。
有更好的方法吗?
如果还没有完成,您可以通过使用robots.txt文件来清除大多数爬网程序。请参见此处。然而,这并没有得到严格遵守。那些继续爬行的人可能会被IP禁止。您可以使用iptables在Linux上执行此操作。示例:
iptables -A INPUT -s IP-ADDRESS -j DROP
列出需要的蜘蛛,并使用以下代码进行重定向:
header('HTTP/1.1 301 Moved Permanently');
header('Location: NEED_URL_HERE');
实际上,你可以使用.htaccess或robots.txt(如果爬网程序使用它)
User-agent: *
Disallow: /
UPD:如果你将此用于SEO(破解),你可能会受到搜索引擎的惩罚,请小心。