如何使用WGET或Perl下载用PHP/JavaScript内容编码的HTML


How to download HTML encoded with PHP/JavaScript content using WGET or Perl

我有一个URL,我想下载和解析:

http://diana.cslab.ece.ntua.gr/micro-CDS/index.php?r=search/results_mature&mir=hsa-miR-3131&kwd=MIMAT0014996

问题是当我下载unix wget以下方式:

$ wget [the above url]

它给我的内容与我在浏览器上看到的内容不同(即,基因列表不在那里)。

以编程的方式完成它的正确方法是什么?

#/usr/bin/perl
use WWW::Mechanize;
use strict;
use warnings;
my $url = "http://diana.cslab.ece.ntua.gr/micro-CDS/index.php?r=search/results_mature&mir=hsa-miR-3131&kwd=MIMAT0014996";
my $mech = WWW::Mechanize->new();
$mech->agent_alias("Windows IE 6");
$mech->get($url);
#now you have access to the HTML code via $mech->content();

要处理HTML代码,我强烈推荐use HTML::TreeBuilder::XPath(或其他HTML解析模块)

我刚刚使用PHP进行了测试,并将其与基因列表一起拉出

<?php
echo file_get_contents('http://diana.cslab.ece.ntua.gr/micro-CDS/index.php?r=search/results_mature&mir=hsa-miR-3131&kwd=MIMAT0014996');
?>