多长时间我可以抓取一个网站与PHP


How Often Can I Crawl A Website With PHP?

我想构建一个Android应用程序,它可以用php抓取一个网站,并从我正在抓取的网站内的一个小span标签获取信息。

我想知道这是否合法(我认为这是因为谷歌不断抓取网站)。

我还需要知道我多久能做一次,或者即使有这样的规则。

谢谢!

嗯,我认为你正在进入网页抓取的竞技场,而不是网页爬行。这两者几乎相同,但抓取"更侧重于将网络上的非结构化数据(通常是HTML格式)转换为结构化数据,以便在中央本地数据库或电子表格中存储和分析。"通常,会有很多法律问题围绕着抓取不属于你的网站。

维基百科有一个相当不错的章节来讨论有关抓取的法律问题。

换句话说,这完全取决于你想要抓取/抓取的网站的所有者。

基本上,你有两个问题:

  • 如何检索数据?
  • 应该吗?

前者相对简单,后者要复杂得多。

从纯粹的技术角度来看,如果你每天抓取一个站点,没有人可能会注意到,除非它是一个非常低容量的站点(他们不太可能关心)。

请记住,抓取的次数越多,消耗的服务器资源就越多。

良好的网络礼仪意味着你应该尊重网站所有者的意愿。许多站点将提供另一种经批准的获取数据的方式,通常是通过网络服务。

您应该尝试遵守任何robots.txt文件中指定的限制(只需Google它)。这也是良好的行为。

真的,这取决于你如何界定礼貌和需要之间的界限。

需要考虑的一件事是:许多信息源都很乐意让他们的数据被重用,只要他们得到了信任。(虽然,平心而论,其他人完全反对,不管怎样)

如果我在你的位置上,我会首先尝试联系有问题的网站,并出于礼貌请求许可-他们最坏的做法就是拒绝。

下一个问题是究竟是谁在提取数据。如果您从中央服务器抓取数据,则相同的IP地址将执行查询。如果应用程序自己提取数据,它将是多个IP地址,并可能在"静态"中丢失,除非应用程序表现愚蠢。