价格比较网站-爬虫


price comparison website - crawler

我有一个价格比较网站。你可以点击一个优惠链接,我会从商店得到1美元。

问题是:爬网程序对整个网站进行爬网。所以他们"点击链接"。如何防止它们点击?Javascript是一个糟糕的解决方案。

谢谢!

我一直在错误地思考这个问题。

我同意@yttriuszzerbus上面所说的一切——在文件中添加robots.txt,在链接中添加"rel=nofollow",并阻止你所知道的用户代理。

因此,如果你有人现在试图点击链接,那要么是一个活生生的人,要么是你不想点击的行为不端的机器人。

那么,做一些奇怪的事情来创建商店网站的链接怎么样?通常情况下,你永远不会这样做,因为这会让你的网站无法索引。但这不是问题——所有表现良好的机器人都不会对这些链接进行索引,因为它们会遵守robots.txt文件。

我正在考虑类似于没有<a href=标记的方法——相反,使用样式表生成链接的文本,在字体上添加下划线,使其看起来像是指向普通用户的链接,然后使用javascript onClick函数在用户点击时重定向用户。Bot不会将其视为链接,用户也不会注意到任何事情。

您可以:

  1. 使用"rel=nofollow"指示爬网程序不要关注您的链接。

  2. 阻止某些用户代理字符串

  3. 使用robots.txt来排除您网站的传播。

不幸的是,以上内容都不会排除行为不端的爬网程序。真正阻止爬网程序的唯一解决方案是某种JavaScript链接或CAPTCHA。

我也有类似的项目。我的问题只通过阻止某些用户代理字符串来解决。

另一个问题是,我不知道每一个";坏的";用户代理的,所以当一个新的爬网程序进入网站时,我会将其添加到黑名单中,并从统计数据中追溯删除其访问量。

"rel=nofollow";和robots.txt对我根本不起作用。