提取html页面中所有以.js扩展名结尾的链接


Extract all links which ends with .js extension in html page

我想提取html页面中所有以.js结尾的链接。我能够获取脚本标记中的链接但是我如何从属性中获取链接,例如{"yui":"http://l.yimg.com/nn/lib/metro/g/uicontrib/yui/yui_3.4.1.js"}。我希望这是在php 中完成的

一个用PHP5+编写的简单PHP HTML DOM解析器,支持无效HTML,并提供了一种非常简单的方法来处理HTML元素。使用类似jQuery的选择器在HTML页面上查找标记。在一行中从HTML中提取内容。

以下是获取它的链接:http://sourceforge.net/projects/simplehtmldom/

这是官方网站:http://simplehtmldom.sourceforge.net/

对于可以使用的基本HTML元素http://code.google.com/p/phpquery/解析DOM内容(它像CSS选择器一样处理jquery,像attrfind这样的函数)。以下是如何在PhpQuery中使用选择器的示例http://code.google.com/p/phpquery/wiki/Selectors.

对于属性,它取决于:

  • 某种regexp,如果它们是在Javascript或其他东西中
  • 如果它们在数据属性中,并且您知道属性名称,那么您可以获得json字符串,并简单地对其运行json_decode php函数