使用php抓取页面主体


scraping body of a page using php

使用php抓取页面主体,并将抓取的字符长度限制为100。我怎样才能做到呢?下面的代码将废弃或抓取页面主体并获取其内容,但也将废弃或抓取页面主体及其源代码。请我如何废弃/抓取仅在页面正文上的文本,并限制字符像100之前输出

libxml_use_internal_errors(true);
$dom = new DOMDocument;
$dom->loadHTMLFile($url);
libxml_use_internal_errors(false);
$body = $dom->getElementsByTagName('body')->item(0); 
echo $body->textContent;
$body_output = substr($body->textContent, 0, 100);
echo $body_output;