我最近才开始使用XPath。目前,我只是逐行解析一些页面并获取相关文本。
我想做的是排除顶部的div
,它是子元素。
基本上我正在看这个:
<html>
<head> Foo </head>
<body>
<div id='header'>
<ul id='menu'> <li> Bar </li> <li> FooBar </li> <li> BarFoo </li> </ul>
</div>
<table> <tr> <td>data</td><td>data</td> </tr> </table>
<div>
<p>Lorem Ipsum</p>
<p>dolor sit amet</p>
</div>
</body>
</html>
除了更多的内容。
目前我遍历每个节点:
$dom = new DOMDocument;
$dom->loadHTMLFile('http://www.test.com/test.htm');
$xpath = new DOMXPath($dom);
$nodes = $xpath->query('/html/body//*');
foreach($nodes as $node) {
echo $node->nodeValue;
}
我想忽略整个标头节点。
有没有一种简单的方法可以做到这一点?
这将起作用:
/html/body//*[not(ancestor-or-self::div[@id="header"])]
XPath 选择主体元素下的所有节点,除非它们是 id 属性值为"header"的 DIV 的祖先或该div 本身。
查看 XPath 教程的 http://schlitt.info/opensource/blog/0704_xpath.html。