我创建了一个简单的脚本来从页面中获取图像URL。该脚本可以做到这一点,但只获取第一个URL,请指导如何循环这一点。
<html>
<head>
<title>RUscraper</title>
</head>
<body>
<form method="get">
MemberID:
<input type="text" name="memberIDsubmit" />
<input type="submit" value="Scrape" />
</form>
<?php
if ($_GET["memberIDsubmit"]) {
function scrape() {
$memberID = $_GET["memberIDsubmit"];
echo $memberID;
$curl = curl_init("http://domain.com/profile/?Id=$memberID");
curl_setopt($curl, CURLOPT_RETURNTRANSFER, TRUE);
$page = curl_exec($curl);
curl_close($curl);
$regex = "/https?:'/'/[^ ]+?(?:'.jpg)/";
preg_match($regex, $page, $output);
echo "<pre>";
var_dump($output);
echo $page;
echo "</pre>";
}
scrape();
}
?>
</body>
</html>
使用带有-p选项的wget而不是curl来获取页面及其所有元素(如图像、css文件、javascript文件等):
wget -p http://www.example.com/path/to/page.html