PHP scraper脚本中的Useragent


Useragent in PHP scraper script

我在购买的scraper脚本中有一行PHP代码,它是:

    $userAgent = 'Googlebot/2.1 (http://www.googlebot.com/bot.html)';

我猜这意味着剧本就像谷歌机器人一样,我是对的吗?如果是这种情况,我可以更改它,使其成为我自己的机器人的名称,如Searchbox吗?

用户代理完全是咨询性的,它不应该对呈现的页面产生任何影响(实际上,这将违反谷歌的指导方针,并导致被抛出索引)。它应该包含一个URL或电子邮件网站管理员可以用来联系行为不端的机器人的所有者。

你不应该假装是GoogleBot,而是在用户代理中包含你的电子邮件地址或主页。

$userAgent = 'scraper/1 (callum.whyte@example.com)';

如果是这种情况,我可以更改它,使其成为我自己的机器人的名称,如Searchbox吗?

这取决于脚本做什么,以及它抓取什么样的网站。谷歌机器人代理字符串的存在是有原因的——可能是为了欺骗新闻网站显示付费内容,或者更无辜地,为了获得内容的搜索引擎优化版本。

如果你不需要依赖这些"副作用",你可以选择任何你想要的用户代理字符串。对于机器人,它是包括"机器人"一词的自定义,以及网站管理员可以获得更多信息的URL。