价格比较网站-爬虫 - price comparison website - crawler

price comparison website - crawler

本文关键字：爬虫网站比较 | 更新日期: 2023-09-27

我有一个价格比较网站。你可以点击一个优惠链接，我会从商店得到1美元。

问题是：爬网程序对整个网站进行爬网。所以他们"点击链接"。如何防止它们点击？Javascript是一个糟糕的解决方案。

谢谢！

我一直在错误地思考这个问题。

我同意@yttriuszzerbus上面所说的一切——在文件中添加robots.txt，在链接中添加"rel=nofollow"，并阻止你所知道的用户代理。

因此，如果你有人现在试图点击链接，那要么是一个活生生的人，要么是你不想点击的行为不端的机器人。

那么，做一些奇怪的事情来创建商店网站的链接怎么样？通常情况下，你永远不会这样做，因为这会让你的网站无法索引。但这不是问题——所有表现良好的机器人都不会对这些链接进行索引，因为它们会遵守robots.txt文件。

我正在考虑类似于没有<a href=标记的方法——相反，使用样式表生成链接的文本，在字体上添加下划线，使其看起来像是指向普通用户的链接，然后使用javascript onClick函数在用户点击时重定向用户。Bot不会将其视为链接，用户也不会注意到任何事情。

您可以：

不幸的是，以上内容都不会排除行为不端的爬网程序。真正阻止爬网程序的唯一解决方案是某种JavaScript链接或CAPTCHA。

我也有类似的项目。我的问题只通过阻止某些用户代理字符串来解决。

另一个问题是，我不知道每一个"；坏的"；用户代理的，所以当一个新的爬网程序进入网站时，我会将其添加到黑名单中，并从统计数据中追溯删除其访问量。

"rel＝nofollow"；和robots.txt对我根本不起作用。