正在重定向爬网程序


Redirecting crawlers

我有一个在线工具,可以跟踪任务和用户完成任务的情况。作为过程的一部分,我记录了CCD_ 1。然而,偶尔我会收到各种机器人和爬虫的访问。如何在不"伤害他们的感情"的情况下,温和地将他们转移到其他地方?

我在想我应该用机器人的名字建立一个数组,并根据它运行每个AGENT信息,如果在数组中找到,重定向。

有更好的方法吗?

如果还没有完成,您可以通过使用robots.txt文件来清除大多数爬网程序。请参见此处。然而,这并没有得到严格遵守。那些继续爬行的人可能会被IP禁止。您可以使用iptables在Linux上执行此操作。示例:

iptables -A INPUT -s IP-ADDRESS -j DROP

列出需要的蜘蛛,并使用以下代码进行重定向:

header('HTTP/1.1 301 Moved Permanently');
header('Location: NEED_URL_HERE');

实际上,你可以使用.htaccess或robots.txt(如果爬网程序使用它)

 User-agent: *
 Disallow: /

UPD:如果你将此用于SEO(破解),你可能会受到搜索引擎的惩罚,请小心。

相关文章: