多长时间我可以抓取一个网站与PHP - How Often Can I Crawl A Website With PHP?

How Often Can I Crawl A Website With PHP?

我想构建一个Android应用程序，它可以用php抓取一个网站，并从我正在抓取的网站内的一个小span标签获取信息。

我想知道这是否合法(我认为这是因为谷歌不断抓取网站)。

我还需要知道我多久能做一次，或者即使有这样的规则。

谢谢!

嗯，我认为你正在进入网页抓取的竞技场，而不是网页爬行。这两者几乎相同，但抓取"更侧重于将网络上的非结构化数据(通常是HTML格式)转换为结构化数据，以便在中央本地数据库或电子表格中存储和分析。"通常，会有很多法律问题围绕着抓取不属于你的网站。

维基百科有一个相当不错的章节来讨论有关抓取的法律问题。

换句话说，这完全取决于你想要抓取/抓取的网站的所有者。

基本上，你有两个问题:

前者相对简单，后者要复杂得多。

从纯粹的技术角度来看，如果你每天抓取一个站点，没有人可能会注意到，除非它是一个非常低容量的站点(他们不太可能关心)。

请记住，抓取的次数越多，消耗的服务器资源就越多。

良好的网络礼仪意味着你应该尊重网站所有者的意愿。许多站点将提供另一种经批准的获取数据的方式，通常是通过网络服务。

您应该尝试遵守任何robots.txt文件中指定的限制(只需Google它)。这也是良好的行为。

真的，这取决于你如何界定礼貌和需要之间的界限。

需要考虑的一件事是:许多信息源都很乐意让他们的数据被重用，只要他们得到了信任。(虽然，平心而论，其他人完全反对，不管怎样)

如果我在你的位置上，我会首先尝试联系有问题的网站，并出于礼貌请求许可-他们最坏的做法就是拒绝。

下一个问题是究竟是谁在提取数据。如果您从中央服务器抓取数据，则相同的IP地址将执行查询。如果应用程序自己提取数据，它将是多个IP地址，并可能在"静态"中丢失，除非应用程序表现愚蠢。