我知道还有其他问题要求类似的东西,但这些问题要求这样做的特定产品......我要求如何解决此任务的高级策略,以便我可以自己编写脚本
最好在 PHP/Javascript 中完成此操作
我的目标是使用页面中显示的最合适的图像获取页面的缩略图...即使没有描述元标记,我也需要获得适当的描述......如果没有描述元标记,那么脚本应该从页面本身获取一些最适合用作描述的文本......这类似于Facebook的做法。
如果你看这个:http://www.freakonomics.com/2008/09/24/wall-street-jokes-please/
并查看来源,该网站没有 og:image 标签来告诉 Facebook 使用哪个图像,也没有描述元标记
然而,如果您在Facebook上"分享"它,Facebook会自动从页面中选择最合适的图像用作缩略图,并且它还使用主页上显示的文本获得适当的描述。
他们究竟是如何做到这一点的,或者我应该如何使用 PHP/Javascript 做类似的事情? 如何区分页面描述/缩略图的适当文本/图像与纯噪音(广告、链接、按钮、横幅等(?
我假设他们正在寻找与特定宽度/高度匹配的网站同一域上的所有<img src
。当一个网站没有fb标签并且它必须猜测时,它允许您在几个缩略图之间进行选择以选择最合适的缩略图。
这样做的问题是,它可能占用了必须即时完成的大量处理能力。速度和可扩展性将成为一个因素,除非你是像Facebook这样拥有权力和技术的公司。
也就是说,这当然是可以做到的,看看我不久前提出的一个类似的问题。
看看这个网站 http://imagevat.com/muupload.php 这是你的意思吗?