如何降低谷歌和bing在magento网站上抓取时的CPU利用率


How to reduce the CPU utilization when google and bing crawls on magento site?

我已经面临一个奇怪的情况有一段时间了,需要一个关于这方面的指导。

问题: 自从过去两天以来,我们经历了非常缓慢的网站相比,当我们启动服务器。我们认为这是脾气问题。但现在,它已经变得非常缓慢&加载一个页面至少需要3分钟。我还检查了CPU的实用性是否达到了100%,并相信爬行可能会这样做

我们正在使用一些第三方来做我们的SEO和谷歌动态营销和广告的我们的magento网站。我坚信这些东西需要抓取我的网站,以便在搜索引擎上进行索引。

我看到谷歌和bing经常抓取我们的网站。你可以称之为谷歌机器人和bing机器人,突然间它出现了最大的峰值。

查看屏幕截图:https://www.dropbox.com/s/2c4u04rhtbi99j0/Screenshot%202015-11-14%2014.16.41.png?dl=0

最大的峰值是由bing和谷歌同时造成的,较小的峰值似乎只是谷歌机器人。

所以我只是有一个关于这个的快速问题?

你们认为,如果一个机器人IP被列入白名单,我们会在SEO、谷歌广告和动态再营销方面遇到问题吗,因为这样它就不允许该IP在我们的网站上爬行了

这是垃圾邮件还是机器人爬进我们的商店,导致商店响应时间减少,从而影响我们商店的搜索引擎排名和转化率

大型实例类型的AWS能否帮助我们解决CPU使用问题 注意:我们已经在使用m3.ligh实例类型。

这是垃圾邮件还是机器人爬取我们的商店,导致商店响应时间缩短,从而影响搜索引擎在我们商店的排名和转化率

机器人和爬虫可以为单个magento服务器造成可持续的流量和资源激增。不管有什么可以提高magento的性能,比如:magento默认的缓存,nginx或apache设置,安装的扩展等等

大型实例类型的AWS能否帮助我们解决CPU使用问题??注意:我们已经在使用m3.large实例类型

当然——Burstable t2.大型实例可以更具成本效益,并且可以更好地处理由机器人引起的流量峰值。只要你有一个半可预测的交通模式。就像白天更高的流量和夜间更低的流量一样,该实例将获得可以用来突破正常CPU容量的积分。请参阅以下内容以获得全面解释:

https://aws.amazon.com/blogs/aws/low-cost-burstable-ec2-instances/

我看到的最大帮助是为magento提供了一个正确配置的robots.txt。它确保爬网程序指向正确的位置,确保你的服务器只需要提供它需要的页面。这篇文章是一个很好的起点:

https://magento.stackexchange.com/questions/14891/how-do-i-configure-robots-txt-in-magento

在谷歌和必应的网站管理员工具中,一旦你验证了你的域名,你就可以在必要时更改抓取率。

您还可以使用Nginx实现推荐垃圾邮件屏蔽请参阅:

https://github.com/Stevie-Ray/referrer-spam-blocker