我想提取html页面中所有以.js结尾的链接。我能够获取脚本标记中的链接但是我如何从属性中获取链接,例如{"yui":"http://l.yimg.com/nn/lib/metro/g/uicontrib/yui/yui_3.4.1.js"}。我希望这是在php 中完成的
一个用PHP5+编写的简单PHP HTML DOM解析器,支持无效HTML,并提供了一种非常简单的方法来处理HTML元素。使用类似jQuery的选择器在HTML页面上查找标记。在一行中从HTML中提取内容。
以下是获取它的链接:http://sourceforge.net/projects/simplehtmldom/
这是官方网站:http://simplehtmldom.sourceforge.net/
对于可以使用的基本HTML元素http://code.google.com/p/phpquery/解析DOM内容(它像CSS选择器一样处理jquery,像attr
、find
这样的函数)。以下是如何在PhpQuery中使用选择器的示例http://code.google.com/p/phpquery/wiki/Selectors.
对于属性,它取决于:
- 某种regexp,如果它们是在Javascript或其他东西中
- 如果它们在数据属性中,并且您知道属性名称,那么您可以获得json字符串,并简单地对其运行
json_decode
php函数