网站使用的登录表单是/login.php?action=process,它使用POST。我将如何开始写的东西,最好与php,将登录与我的用户名和密码。然后我将继续爬行,并得到我需要的信息。
这是监控/更新信息的供应商电子商务商店,使我的库存和价格保持在我的网站上的最新。
$loginUrl = 'http://www.remote_site.com/login.php?action=process';
$loginFields = array('username' => 'username', 'password' => 'password');
getUrl($loginUrl, 'post', $loginFields);
//now you're logged in and a session cookie was generated
$remote_page_content = getUrl('http://www.remote_site.com/some_page.php');
function getUrl($url, $method='', $vars='') {
$ch = curl_init();
if ($method == 'post') {
curl_setopt($ch, CURLOPT_POST, 1);
curl_setopt($ch, CURLOPT_POSTFIELDS, $vars);
}
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
curl_setopt($ch, CURLOPT_COOKIEJAR, 'cookies.txt');
curl_setopt($ch, CURLOPT_COOKIEFILE, 'cookies.txt');
$buffer = curl_exec($ch);
curl_close($ch);
return $buffer;
}
从登录页面来看,我假设商店系统是(某种)xt:commerce。它具有将产品信息导出为CSV的功能,因此,正如vaidas在评论中所说,在尝试"抓取"该网站之前,您应该尝试通过电子邮件发送该CSV。