可以';t通过xpath访问具有多个名称空间的xhtml文档中的节点


Can't access nodes in xhtml document with multiple namespaces through xpath

好的,所以我尝试用curl和xpath解析一个xhtml站点。

该网站有多个名称空间:

<html xmlns="http://www.w3.org/1999/xhtml" xmlns:addthis="http://www.addthis.com/help/api-spec"     xmlns:og="http://ogp.me/ns#" xmlns:fb="http://www.facebook.com/2008/fbml">

我正试图从网站的分页中获得所有的URL,如下所示:

$url = [site_im_parsing];
$dom = new DOMDocument();
@$dom->loadHTML($url);  
$xpath = new Domxpath($dom);
$xpath->registerNamespace("x", "http://www.w3.org/1999/xhtml");
$pages = $xpath->query('//x:div[2]/x:table/x:tbody/x:tr/x:td[1]/x:a');
for ($i = 0; $i < $pages->length; $i++) {
    echo $pages->item($i)->getAttribute('href');
}

这行不通。(没有x命名空间的分页的xpath应该是正确的)。我应该注册所有的名称空间并在xpath查询中以某种方式使用它们吗?

谨致问候,AB

//问题更新//

这是我试图解析的页面部分:(我想要href的)

<div class="pager">
    <table style="width:100%" border="0" cellspacing="0" cellpadding="0">
        <tbody>
            <tr>
                <td>
                    <span class="current">1</span>  | 
                    <a href="http://www.somewebsite.com/catalog?on_offer=1&amp;commodity_offset=1">2</a> | 
                    <a href="http://www.somewebsite.com/catalog?on_offer=1&amp;commodity_offset=2">3</a> | 
                    <a href="http://www.somewebsite.com/catalog?on_offer=1&amp;commodity_offset=3">4</a> | 
                    <a href="http://www.somewebsite.com/catalog?on_offer=1&amp;commodity_offset=4">5</a> | 
                    <a href="http://www.somewebsite.com/catalog?on_offer=1&amp;commodity_offset=5">6</a> | 
                    <a href="http://www.somewebsite.com/catalog?on_offer=1&amp;commodity_offset=6">7</a>        
                </td>
                <td style="text-align:right">
                    <a href="http://www.somewebsite.com/catalog?on_offer=1&amp;commodity_offset=1">Next</a>
                </td>
            </tr>
        </tbody>
    </table>
</div>

doctype为:

html PUBLIC"//W3C//DTD XHTML 1.0过渡//EN"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"

如果这有什么不同的话。。。

对于loadHTML,我希望忽略任何命名空间,所以尽量不要使用registerNamespace,然后使用$xpath->query('//div[2]/table/tbody/tr/td[1]/a');。作为另一种解析为XML的方法,使用名称空间是有意义的。

好吧,我想明白了。。。

浏览器将插入一个隐式标记<tbody>当它不在文档中时。xpath将只处理原始HTML字符串中的标记,所以我只省略了<tbody>标签。

旧的xpath查询:

$xpath->query('//div[2]/table/tbody/tr/td[1]/a');

新增:

$xpath->query('//div[2]/table/tr/td[1]/a');