使用curl(循环）从页面中抓取所有图像url - Grabbing all image urls from a page using curl (looping)

Grabbing all image urls from a page using curl (looping)

本文关键字：抓取 url 图像 curl 循环使用 | 更新日期: 2023-09-27

我创建了一个简单的脚本来从页面中获取图像URL。该脚本可以做到这一点，但只获取第一个URL，请指导如何循环这一点。

<html>
<head>
	<title>RUscraper</title>
</head>
<body>
	<form method="get">
		MemberID: 
		<input type="text" name="memberIDsubmit" />
		<input type="submit" value="Scrape" />
	</form>
	<?php
		if ($_GET["memberIDsubmit"]) {
			
			function scrape() {
				$memberID = $_GET["memberIDsubmit"];
				echo $memberID;
				$curl = curl_init("http://domain.com/profile/?Id=$memberID");
				curl_setopt($curl, CURLOPT_RETURNTRANSFER, TRUE);
				$page = curl_exec($curl);
				curl_close($curl);	
				$regex = "/https?:'/'/[^ ]+?(?:'.jpg)/";
				preg_match($regex, $page, $output);			
			    echo "<pre>";
			    var_dump($output);
			    echo $page;
			    echo "</pre>";
		    }	
	    	scrape();
		}
	?>
</body>
</html>

使用带有-p选项的wget而不是curl来获取页面及其所有元素（如图像、css文件、javascript文件等）：

wget -p http://www.example.com/path/to/page.html