主要网站如何从链接中获取缩略图


How major websites capture thumbnails from a link?

在Digg和Facebook等主要网站分享链接时;它将通过捕获页面的主要图像来创建缩略图。他们如何从网页上捕捉图像?它是否包括加载整个页面(例如通过cURL)并解析它(例如使用preg_match) ?对我来说,这种方法既慢又不可靠。他们有更实用的方法吗?

注:我认为应该有一种实用的方法,通过跳过某些部分(例如CSS和JS)来快速爬行页面以达到src属性。任何想法?

他们通常在页面上查找图像,并在其服务器上按比例缩小。Reddit的刮板代码显示了他们所做的很多事情。关于如何处理这个问题,Scraper类应该会给您一些好主意。

JohnD的回答显示Reddit使用嵌入。作为Python解决方案的一部分。真正嵌入。Ly负责查找图像的困难部分,并且它们是免费的,低于10,000请求/月

他们通常使用webkit2png等工具。

有些人使用

 <link rel="image_src" href="yourimage.jpg" /> 

包含在页首。见http://www.labnol.org/internet/design/set-thumbnail-images-for-web-pages/6482/

Facebook使用

<meta property="og:image" content="thumbnail_image" />

见:http://developers.facebook.com/docs/share/基本标签