使用PHP'；s DOMDocument::preserveWhiteSpace=false并且仍在获取空白 - Using PHP's DOMDocument::preserveWhiteSpace = false and still getting whitespace

Using PHP's DOMDocument::preserveWhiteSpace = false and still getting whitespace

我正在抓取此页面：
http://kat.ph/search/example/?field=seeders&sorder=desc

这样：

...
curl_setopt( $curl, CURLOPT_URL, $url );
$header = array (
    'Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Charset:ISO-8859-1,utf-8;q=0.7,*;q=0.3',
    'Accept-Encoding:gzip,deflate,sdch',
    'Accept-Language:en-US,en;q=0.8',
    'Cache-Control:max-age=0',
    'Connection:keep-alive',
    'Host:kat.ph',
    'User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_6_8) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.142 Safari/535.19',
);
curl_setopt( $curl, CURLOPT_USERAGENT, 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_6_8) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.142 Safari/535.19'); 
curl_setopt( $curl, CURLOPT_HTTPHEADER, $header ); 
curl_setopt( $curl, CURLOPT_REFERER, 'http://kat.ph' ); 
curl_setopt( $curl, CURLOPT_ENCODING, 'gzip,deflate,sdch' ); 
curl_setopt( $curl, CURLOPT_AUTOREFERER, true ); 
curl_setopt( $curl, CURLOPT_RETURNTRANSFER, 1 ); 
curl_setopt( $curl, CURLOPT_TIMEOUT, 10 );
$html = curl_exec( $curl );
$dom = new DOMDocument;
$dom->preserveWhiteSpace = FALSE;
@$dom->loadHTML( $html );

（必须模仿浏览器才能工作，因此CURL）

但我仍然得到#text类型的DOMNodes，它只由空白字符组成。

你知道为什么会发生这种情况以及如何避免吗？

看起来preserveWhiteSpace属性只是~~设置了~~libxml2 XML_PARSE_NOBLANKS标志，这并不总是像~~这个线程~~所建议的那样可靠。具体来说，当在没有DTD的情况下进行解析时，在某些情况下（主要是如果它们是其他非文本元素的兄弟元素），解析器会保留空文本元素。

线程可能有点过时，但行为~~仍然存在，如~~所述。