使用Python与PHP抓取网页


Scraping web pages with Python vs PHP?

我一直在对网页抓取进行一些研究,并注意到它似乎主要使用 Python 完成,使用基于 Python 的解决方案比 PHP 有什么好处吗,是否存在性能问题等等?

在我看来,我会选择python,因为与PHP相比,它具有出色的字符串处理能力。此外,python还有很多很酷的库,这使得抓取网页成为一种幸福。

您应该签出的一些库是:

美丽的汤

斗志昂扬

我个人使用过BeautifulSoup,它简单而强大。

从他们的文档中查看这段代码:

import urllib2
from BeautifulSoup import BeautifulSoup
page = urllib2.urlopen("http://www.icc-ccs.org/prc/piracyreport.php")
soup = BeautifulSoup(page)
for incident in soup('td', width="90%"):
    where, linebreak, what = incident.contents[:3]
    print where.strip()
    print what.strip()
    print

在我看来,真正的测试是看看每个方法的可扩展性以及一旦我开始抓取整个维基百科集合,它们如何处理内存管理。我在这里可能是错的,但从我目前所读到的内容来看,Python 是处理如此繁重处理任务的首选工具。例如SCRAPY它具有自己的刮擦功能,并且专为这项工作而设计

无论哪种方式,我想我只会使用Python;)

python

最好的,SCRAPY是一个开放的资源,可以在一两天内使您的工作更轻松。