我使用DOMDocument遍历HTML以获取<p>
标记内的内容。但同时,我不想从<p>
标签中的href
, div
和span
信息中获得任何信息。我应该如何从下面的代码开始:
$doc = new DOMDocument();
$doc->loadHTML($data);
$pas = $domDoc->getElementsByTagName("p");
foreach ($pas as $pa)
$pa->textContent
我可以进一步做一个DOMDocument getElementsByTagName()
的div, span, href从$pas
?还是需要正则表达式?
可以这样使用
$doc = new DOMDocument();
$doc->loadHTML($data);
$rootElement = $document->documentElement;//selecting document root
$pTags = $rootElement->getElementsByTagName("p");//selecting all p tags from DOM
$pas = $pTags->item(0);// selecting first p tag
foreach ($pas as $pa) {
if($pa->nodeName == 'div' || $pa->nodeName == 'span' || $pa->nodeName == 'a')
continue;
// do everything else here
}