在Digg和Facebook等主要网站分享链接时;它将通过捕获页面的主要图像来创建缩略图。他们如何从网页上捕捉图像?它是否包括加载整个页面(例如通过cURL)并解析它(例如使用preg_match) ?对我来说,这种方法既慢又不可靠。他们有更实用的方法吗?
注:我认为应该有一种实用的方法,通过跳过某些部分(例如CSS和JS)来快速爬行页面以达到src属性。任何想法?
他们通常在页面上查找图像,并在其服务器上按比例缩小。Reddit的刮板代码显示了他们所做的很多事情。关于如何处理这个问题,Scraper类应该会给您一些好主意。
JohnD的回答显示Reddit使用嵌入。作为Python解决方案的一部分。真正嵌入。Ly负责查找图像的困难部分,并且它们是免费的,低于10,000请求/月
他们通常使用webkit2png等工具。
有些人使用
<link rel="image_src" href="yourimage.jpg" />
包含在页首。见http://www.labnol.org/internet/design/set-thumbnail-images-for-web-pages/6482/
Facebook使用<meta property="og:image" content="thumbnail_image" />
见:http://developers.facebook.com/docs/share/基本标签