如何获取随机页面的即时缩略图和描述


how to get instant thumbnail and description of a random page

我知道还有其他问题要求类似的东西,但这些问题要求这样做的特定产品......我要求如何解决此任务的高级策略,以便我可以自己编写脚本

最好

在 PHP/Javascript 中完成此操作

我的目标是使用页面中显示的最合适的图像获取页面的缩略图...即使没有描述元标记,我也需要获得适当的描述......如果没有描述元标记,那么脚本应该从页面本身获取一些最适合用作描述的文本......这类似于Facebook的做法。

如果你看这个:http://www.freakonomics.com/2008/09/24/wall-street-jokes-please/

并查看来源,该网站没有 og:image 标签来告诉 Facebook 使用哪个图像,也没有描述元标记

然而,如果您在Facebook上"分享"它,Facebook会自动从页面中选择最合适的图像用作缩略图,并且它还使用主页上显示的文本获得适当的描述。

他们究竟是如何做到这一点的,或者我应该如何使用 PHP/Javascript 做类似的事情? 如何区分页面描述/缩略图的适当文本/图像与纯噪音(广告、链接、按钮、横幅等(?

我假设他们正在寻找与特定宽度/高度匹配的网站同一域上的所有<img src。当一个网站没有fb标签并且它必须猜测时,它允许您在几个缩略图之间进行选择以选择最合适的缩略图。

这样做的问题是,它可能占用了必须即时完成的大量处理能力。速度和可扩展性将成为一个因素,除非你是像Facebook这样拥有权力和技术的公司。

也就是说,这当然是可以做到的,看看我不久前提出的一个类似的问题。

看看这个网站 http://imagevat.com/muupload.php 这是你的意思吗?