谷歌代理是假的爬虫吗?例如:google-proxy-66-249-81-131.google.com


Google proxy is a fake crawler? For example: google-proxy-66-249-81-131.google.com

*编辑:此问题的解决方案位于此问题下方,因为无法发布答案。人们决定结束这个问题*

最近,我发现谷歌代理的一些变体访问了我的网站。我怀疑这些是合法的谷歌爬虫,因为这些爬虫并不总是在代理后面(就像主机名描述的那样(,并将自己标识为浏览器。主机名的格式类似于谷歌机器人,但添加了字符串"proxy"。

我的PHP阻塞类阻塞了这些爬网程序,但是阻塞这些爬网程序正确吗?它们是什么?这些是来自谷歌的还是假的?

这里有一些关于这些爬虫之一的信息:

BlockedIp Notifier Report - IP:66.249.81.131:: has been blocked
Ticket ID : {EVNT_136877_2013040520130402_33147_10348}  
Event type : Access blocked  
Event date : 04/05/2013 - 19:17:47 (server date-time)  
Event counter : First occurring  
Processed url : http://streambutler.net/  
From url : http://www.google.com/search  
Domain : streambutler.net 
Domain IP : 95.170.70.213  
Visitor IP : 66.249.81.131  
Proxy IP : 66.249.81.131  
Critical : Yes  
Action required : No  

Additional information
Problem : Bad Proxy - via 66.249.81.131 
Hostname : google-proxy-66-249-81-131.google.com 
Block : Yes 
Refferer : http://www.google.com/search 
AgentString : Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.4 (KHTML, like G... 
Browser : Chrome 22.0.1229 
Platform : Linux 
Robot : No 
Mobile : No 
Tablet : No 
Console : No 
Crawler : No 
Agent_type : browser 
Agent_name : chrome 
Agent_version : 22.0.1229 
Os_type : linux 
Os_name : linux 
Agent_languagetag : en 
Status : ok 
Request : 66.249.81.131 
Languagecode : us 
Country : United States 
Region : California 
City : Mountain View 
Zipcode : 94043 
Latitude : 37.406 
Longitude : -122.079 
Timezone : -07:00 
Available from  : ''http 
Areacode : 0 
Dmacode : 0 
Continentcode : na 
Currencycode : USD 
Currencysymbol : $ 
Currencysymbol_utf8 : $ 
Currencyconverter : 1 
Extended : 1 
Organization : NULL 

发现其他变体

  • google-proxy-66-249-81-131.google.com(自称Firefox6.0??(
  • google-proxy-66-249-81-148.google.com(尝试访问javascript文件(
  • 谷歌-氧-66-249-81-131.google.com
  • google-proxy-66-249-81-111.google.com(尝试访问javascript文件(
  • 谷歌-氧-66-249-81-164.google.com

编辑:下一个是一个奇怪的,Windows7上的Firefox 6.0和上面的例子相同的IP,但在下一个日志中不是代理?如果是移动代理,这是不是很奇怪?

Ticket ID : {EVNT_164838_2013040520130402_33147_10348}  
Event type : Access blocked  
Event date : 04/05/2013 - 19:19:07 (server date-time)  
Event counter : First occurring  
Processed url : http://streambutler.net/  
From url : Unknown or direct link  
Domain : streambutler.net 
Domain IP : 95.170.70.213  
Visitor IP : 66.249.81.131  
Proxy IP : (not present)  
Critical : Yes  
Action required : No  

Additional information
Problem : Blocked Server IP address (analysis) - 66.249.81.131 
Hostname : google-proxy-66-249-81-131.google.com 
Block : Yes 
Refferer : (direct access) 
AgentString : Mozilla/5.0 (Windows NT 6.1; rv:6.0) Gecko/20110814 Firefox/6.0 ... 
Browser : Firefox 6.0 
Platform : Windows 7 
Robot : No 
Mobile : No 
Tablet : No 
Console : No 
Crawler : No 
Agent_type : browser 
Agent_name : firefox 
Agent_version : 6.0 
Os_type : windows 
Os_name : windows 7 
Agent_languagetag : en 
Status : ok 
Request : 66.249.81.131 
Languagecode : us 
Country : United States 
Region : California 
City : Mountain View 
Zipcode : 94043 
Latitude : 37.406 
Longitude : -122.079 
Timezone : -07:00 
Available from  : ''http 
Areacode : 0 
Dmacode : 0 
Continentcode : na 
Currencycode : USD 
Currencysymbol : $ 
Currencysymbol_utf8 : $ 
Currencyconverter : 1 
Extended : 1 
Organization : NULL 

编辑:解决方案:

明白了这些"爬网程序"不是爬网程序,而是谷歌搜索引擎中使用的实时网站预览的一部分。

我试过这个,在预览中显示我的一个网站,是的,它就在那里,收到了一条屏蔽的IP消息。

如果你想让用户能够查看你网站的预览,你必须接受这些"爬虫"。

就像其他人说的那样:"该URL的根域是google.com,这是不容易被欺骗的"。

结论:您可以信任这些机器人程序或爬网程序,它用于在谷歌搜索中显示预览。

我还没有确认,但我怀疑这些IP可能与谷歌Chrome Mobile的数据压缩代理有关:

https://developers.google.com/chrome/mobile/docs/data-compression

如果是这样的话,屏蔽它们会导致你的网站对一些完全无辜的移动用户显示错误。


它也可能与Google+爬网程序有关,该爬网程序用于使用Google+1按钮抓取页面片段:

https://code.google.com/p/google-plus-platform/issues/detail?id=178

最重要的是,这些IP用于谷歌内部发起的网络请求。它们不是公共网络代理。