从网络文章中提取内容,并以一种很好的方式显示它们


Extract content out web articles and display them in a nice way

我正在尝试制作一些东西,让人们可以把一篇文章的url放在例如verge中。它所做的是读取url/文章,并以可读性等良好的方式显示它。但我真的很困,我在任何地方都找不到关于如何做到这一点的信息。有没有关于如何做到的api。实际上,它不是扫描整个rss提要,而是只扫描一篇文章。

您正在寻找锅炉管道。它应该做你想做的事。甚至还有一个网络API。您也可以下载该模块并从Python脚本中使用它。

你可以在这里选择一篇文章进行测试:http://boilerpipe-web.appspot.com.只需选择ArticleExtractor作为提取器。

应该是最简单的方法:http://simplehtmldom.sourceforge.net/

您可以简单地以css/jquery 等元素为目标

您可以使用正则表达式快速而肮脏地执行此操作,也可以导入DOM。请注意,无论您使用regex还是正确解析DOM,适用于一个网站的解决方案都不太可能在没有更改的情况下适用于另一个网站。