PHP & Xpath:获取所有第一级 HTML 标签(所有同级） - PHP & Xpath: Get All The First Level HTML Tags (All Siblings)

PHP & Xpath: Get All The First Level HTML Tags (All Siblings)

本文关键字：一级 HTML 标签 amp Xpath 获取 PHP | 更新日期: 2023-09-27

我的函数需要从一部分HTML代码中获取所有第一级HTML标签，以便我可以使用每个标签。

这是我在这里总结的HTML文档：

<p>The breed was first...</p>
<p>Semencic credits his...</p>
<h1>Appearance</h1>
<p>The breed's distinctive...</p>
<p>It should be symmetrical...</p>
<figure id="attachment_6" style="width: 840px" class="wp-caption alignnone">
    <img class="size-large wp-image-6" src="...jpg" alt="boerboel appearance" width="840" height="746">
    <figcaption class="wp-caption-text">The dog appearance.</figcaption>
</figure>
<h1>Requirements</h1>
<p>Prospective owners....</p>
<p>These dogs....</p>
<h2>A Little Warning!</h2>
<p>If you are considering...</p>
<blockquote>
    <p>According to...</p>
    <p>Source: http://...</p>
</blockquote>
<p>Although more suitable...</p>

现在，我希望我的输出是：

p
p
h1
p
p
figure
h1
p
p
h2
p
blockquote
p

但现在，它是：

h1
p
h1
p
h2
p
blockquote
p

有几点是错误的：- "数字"未显示- 即使有几个兄弟姐妹，也会挑出段落标签- 未找到第一个 P

$doc = new DOMDocument();
$doc->loadHTML( $this->post_content, LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD );
$xpath = new DOMXpath( $doc );
$nodes = $xpath->query( "/*/*" );
foreach ( $nodes as $node ) {
    echo $node->nodeName;
    echo '<br>';
    $this->add_part(
        md5( $node->textContent ),
        $node->nodeName
    );
}

DOM（

libxml）将重新格式化输入，使其具有单个文档元素。如果删除解析器选项（ LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD ），它将修复 html 并添加html和body元素。因此，如果您希望元素节点位于body可以使用表达式//body/*

$document = new DOMDocument();
$document->loadHtml($html);
$xpath = new DOMXpath($document);
foreach ($xpath->evaluate('//body/*') as $node) {
  var_dump($node->nodeName);
}

输出：

string(1) "p"
string(1) "p"
string(2) "h1"
string(1) "p"
string(1) "p"
string(6) "figure"
string(2) "h1"
string(1) "p"
string(1) "p"
string(2) "h2"
string(1) "p"
string(10) "blockquote"
string(1) "p"

为了记录：使用您精确的 HTML 示例，我得到以下结果：

p / h1 / p / p / figure / h1 / p / p / h2 / p / blockquote / p

而不是这个（根据您的问题）：

    h1 / p /              h1 / p /     h2 / p / blockquote / p

3v4l.org 演示

所以，我不知道这个答案是否会在实际代码中解决您的问题。

HTML有一些规则。您尝试处理没有根元素的代码。用类似 <body> 的内容包装您的代码：

$doc->loadHTML( "<body>$txt</body>", LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD );

通过这种方式，我得到了您想要的结果：

p
p
h1
p
p
figure
h1
p
p
h2
p
blockquote
p

3v4l.org 演示