登录 2shared 站点时,使用 curl-php 不起作用登录到站点


login to site with curl-php not working when loggin into 2shared site

>我正在尝试使用 curl-php 登录 2shared,但由于某种原因,它只返回我的登录页面,并且没有在 cookie 文件中设置正确的 cookie。下面是我的代码。感谢您的任何帮助。

$user = "";
$pass = "";
$cookie = "cookie.txt";
$jsonp = 'jsonp'.time();
if (file_exists($cookie)) {
    unlink($cookie);
}
$post = array(
    "login" => $user,
    "password" => $pass,
    "callback" => $jsonp
);
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, "http://www.2shared.com/login?callback=".$jsonp);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie);
curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie);
curl_setopt($ch, CURLOPT_HTTPHEADER, array('X-Requested-With: XMLHttpRequest'));
curl_setopt($ch, CURLOPT_HEADER, 1);
curl_setopt($ch, CURLOPT_POST, 1);
curl_setopt($ch, CURLOPT_POSTFIELDS, $post);    
curl_setopt($ch, CURLOPT_REFERER, 'http://www.2shared.com/');       
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 6.1; rv:12.0) Gecko/20100101 Firefox/12.0");
curl_setopt($ch, CURLOPT_ENCODING, "UTF-8" );
$return = curl_exec($ch);
curl_close($ch);
echo $return;

编辑:

当我通过浏览器登录并通过HTTP分析器监视流量时,我注意到点击登录按钮后它会返回此数据并重定向到loginRedirect对象,我注意到它设置了一些cookie,这些cookie在我执行php-curl请求时不会出现:

{
    "ok":true,
    "rejectReason":"",
    "loginRedirect":"http://www.2shared.com/account/homeDoorway.jsp;jsessionid=3F253C7C641C7A8402D4AC9872C1CEAE.dc282?rand=0.8112776952920494",
    "loggedIn":"myemail@email.com",
    "needActivation":false
}

但是当尝试使用上面的代码 curl-php 登录时,它会返回我以下数据:

jsonp1339804887({
    "ok":true,
    "rejectReason":"",
    "loginRedirect":"http://www.2shared.com/login.jsp?sessionUnavailable=1",
    "loggedIn":"",
    "needActivation":false
}) 

与往常一样,在进行网络抓取时,关键是与使用浏览器手动完成的录制会话进行比较(如使用LiveHTTPHeaders或类似工具)。然后,确保您的脚本发送的请求尽可能与记录的请求相似。

如果你这样做了,你会看到...

2shared上的登录表单似乎没有使用多部分表单,因此您将$array传递给CURLOPT_POSTFIELDS是错误的。它应该只是一个"login=$name&password=$secret"形式的字符串。也就是说,这可能不是您方法中的唯一缺陷。

这可能只是黑暗中的短板,但在我看来,您实际上应该查看重定向并遵循它。错误消息确实表明您实际上不在服务器端正常运行的会话中 - 并且会话标识是您将被重定向到但选择不遵循的地址的一部分。 ;jsessionid=3F253C7C641C7A8402D4AC9872C1CEAE.dc282 后半部分?rand=0.8112776952920494出现——对我来说!– 成为系统也希望发回的随机数。我将把这看作是一个微不足道的令牌机制,以确保请求实际上是新鲜的,而不是像试图进入的脚本那样的东西:-)

另外,您确定您使用的回调机制(随着时间的推移)确实如此有意义吗?

您是否尝试过无辜地进入登录页面,观察弹出重定向,然后从那里开始您的其他代码?