Domdocument获取段落内的内容,而不是超链接


domdocument get content within a paragraph, not hyperlink

我使用DOMDocument遍历HTML以获取<p>标记内的内容。但同时,我不想从<p>标签中的href, divspan信息中获得任何信息。我应该如何从下面的代码开始:

$doc = new DOMDocument();
$doc->loadHTML($data);
$pas = $domDoc->getElementsByTagName("p");
foreach ($pas as $pa)
    $pa->textContent

我可以进一步做一个DOMDocument getElementsByTagName()的div, span, href从$pas ?还是需要正则表达式?

可以这样使用

$doc = new DOMDocument();
$doc->loadHTML($data);
$rootElement = $document->documentElement;//selecting document root
$pTags = $rootElement->getElementsByTagName("p");//selecting all p tags from DOM
$pas = $pTags->item(0);// selecting first p tag
foreach ($pas as $pa) {
    if($pa->nodeName == 'div' || $pa->nodeName == 'span' || $pa->nodeName == 'a')
    continue;
    // do everything else here
}