从服务器python快速下载xml文件


fast download xml file from server python

我从干净的mx 下载钓鱼/病毒网站的大数据库

网络钓鱼数据库=http://support.clean-mx.de/clean-mx/xmlphishing.php

病毒数据库=http://support.clean-mx.de/clean-mx/xmlviruses.php

现在的问题是,这些xml文件的大小大约是每个+30Mb,下载它们大约需要1分钟,我需要更快地下载它们。。。我使用urllib.urlretrieve下载它们。

我需要这些文件来构建包含这些数据库中URL的xml数据库,我已经尝试过读取它们,希望它应该比使用urllib.urlopen加载它们更快,但下载它们更慢。

你有想法使用这些文件(下载或读取)来构建性能更快的数据库吗?

注意:只需要使用这些文件,我已经编写了快速构建数据库的代码

我尝试在OS X和Linux中通过Firefox下载病毒XML(在VM中运行),并使用出色的requests模块(我更喜欢它而不是urllib),所有方法都需要很长时间才能下载47M文件-事实上,有些进程冻结或崩溃。我有一个60兆比特/秒的互联网连接,从一个没有问题的服务器下载一个类似大小的文件通常只需要10-15秒。所以,我怀疑您的结果不会有太大的改善,因为这似乎是一个服务器问题。我建议联系网站的所有者,看看他们是否愿意与您合作诊断连接问题。

编辑

好吧,这很奇怪。我重新启动了我的Linux虚拟机,并在终端中运行了以下操作:

import requests
url = "http://support.clean-mx.de/clean-mx/xmlviruses.php?"
r = requests.get(url).content
print(r)

下载在不到15秒内完成。所以,我根本不确定发生了什么…