如何仅从 DOM 文档的页面中选择文本 - How to select only the text from a pages in a DOM document

How to select only the text from a pages in a DOM document

本文关键字：选择文本何仅 DOM 文档 | 更新日期: 2023-09-27

我想解析不同的网页，以便形成一个倒排索引。我只想阅读文本，而不是标签元素、菜单等。可以这样做吗？这是我到目前为止所拥有的：

 <?php
 $ch = curl_init("http://en.wikipedia.org/wiki/Agile_software_development");
 curl_setopt($ch,CURLOPT_RETURNTRANSFER,true);
 $c1 = curl_exec($ch);
 $dom = new DOMDocument();
 @$dom->loadHTML($c1);
 $links = $dom->getElementsByTagName("body");
 echo "<br>";
 foreach($links as $links) {
    $title = $links->getElementsBytagName("a");
    $l= $title->length;
    echo $link->nodeValue;
    echo"<br>";
 } ?>

我会这样做：

<?php
$html = <<<HTML
<html>
  <head>
    <title>TITLE</title>
  </head>
  <body>
    <p>PARA 1</p>
    <p>PARA <span>2</span></p>
  </body>
</html>
HTML;
$dom = new DOMDocument();
@$dom->loadHtml($html);
var_dump($dom->getElementsByTagName("body")[0]->textContent);
?>

textContent字段按文档顺序提供节点本身及其后代的内容。上面的输出是：

string(25) "
    PARA 1
    PARA 2
  "

如果要规范化空格（仅用一个空格替换所有 2 个或更多空格的序列，并删除前导空格和尾随空格），则可以这样做：

var_dump(preg_replace('/'s{2,}/', ' ', trim(
                $dom->getElementsByTagName("body")[0]->textContent)));

您可以使用 XPath 来提取它。

$html = <<<'HTML'
<html>
  <head>
    <title>TEST</title>
  </head>
  <body>
    <h1>HEADER</h1>
    <p>SOME CONTENT</p>
  </body>
</html>
HTML;
$dom = new DOMDocument();
@$dom->loadHtml($html);
$xpath = new DOMXPath($dom);
var_dump($xpath->evaluate('normalize-space(//body)'));

输出：

"HEADER SOME CONTENT"