我有一个URL,我想下载和解析:
http://diana.cslab.ece.ntua.gr/micro-CDS/index.php?r=search/results_mature&mir=hsa-miR-3131&kwd=MIMAT0014996
问题是当我下载unix wget
以下方式:
$ wget [the above url]
它给我的内容与我在浏览器上看到的内容不同(即,基因列表不在那里)。
以编程的方式完成它的正确方法是什么?
#/usr/bin/perl
use WWW::Mechanize;
use strict;
use warnings;
my $url = "http://diana.cslab.ece.ntua.gr/micro-CDS/index.php?r=search/results_mature&mir=hsa-miR-3131&kwd=MIMAT0014996";
my $mech = WWW::Mechanize->new();
$mech->agent_alias("Windows IE 6");
$mech->get($url);
#now you have access to the HTML code via $mech->content();
要处理HTML代码,我强烈推荐use HTML::TreeBuilder::XPath
(或其他HTML解析模块)
我刚刚使用PHP进行了测试,并将其与基因列表一起拉出
<?php
echo file_get_contents('http://diana.cslab.ece.ntua.gr/micro-CDS/index.php?r=search/results_mature&mir=hsa-miR-3131&kwd=MIMAT0014996');
?>