新浪微博是一个中国微博网站,我正在做一个抓取项目,包括获取该网站中每个用户的博客文章数,
网站网址:http://blogus.sina.com/gb/hotbloger/#top
在这个页面中,你们可以看到所有用户的列表,点击每个用户,我们会被重定向到相应的博客页面,我想通过检查每个用户的帖子数量(通过检查日期和时间)。
他们提供api来获取详细信息API:http://open.weibo.com/wiki/API%E6%96%87%E6%A1%A3/en
但我找不到任何api调用来获取这些指定的详细信息。有其他方法可以获得详细信息吗?或者我们可以直接抓取网站?请帮忙。
您可以使用API方法2/users/show
获取有关用户的信息。
例如,您提到的页面中的第一个链接是:
http://redirect.sina.com/blogus/u/blog.sina.com.cn/u/1763875377
这是对用户id为1763875377的页面的重定向。因此,您可以简单地调用https://api.weibo.com/2/users/show.json?uid=1763875377
,它将返回该用户的帖子数("statuses_count":1583
)。
您还可以使用/2/users/counts
端点一次获取多个用户的帖子数量。
通过身份验证执行这些调用需要访问令牌(基本上,您需要在微博上注册应用程序)。