我如何编写一个脚本,可以扫描用户在我的网站提交的链接,并产生缩略图;就像Facebook一样?
您可以创建一个类似爬虫的脚本,它只访问该网站并解析其内容。
一种方法:
你可能知道,Facebook使用Meta标签来帮助爬虫更有效地找到页面内容。你也可以这样做。
所以简单地说,你可以在这些步骤中进行解析。
为简单起见,假设我们的页面是test.com。
- 首先,你解析test.com头和搜索元标签,你已经预定义和其他网站创建者正在使用。
- 如果有信息,解析并使用解析后的信息
- 如果没有提供元标签,解析页面的其余部分,寻找适合您需求的数据,如具有相当好的分辨率的图像缩略图,描述元标签,标题等。
- 缓存信息以供进一步使用,避免内存占用过高。
提示:缓存数据的时间相对较短
您需要一个无头浏览器,例如PhantomJS,您可以编写脚本来截取屏幕。