带有 html 段落标签的有趣行为


Funny behavior with html paragraph tags

$regex = '#<p.+</p>#s';

我的目标是返回第一个段落标签和最后一个段落标签之间出现的大字符串。这是为了包括所有内容,甚至是其他段落。

我上面的正则表达式适用于除段落标签以外的所有内容。我测试了它将"p"替换为"html"并返回成功,替换为"脚本"并返回成功......为什么对于这些情况,这又是真的,而对于该段却不是?

我仍在研究这个问题,并且相对确信没有奇怪的转义序列导致正则表达式停止......我认为这是因为我可以提取第一个和最后一个"html"标签之间的所有内容。"html"标签之间的文本还包含我无法提取的所有"p"标签。如果有某种转义或错误,我认为在提取"html"标签时也会抛出相同的错误。我尝试过preg_quote()但没有成功。

也许我需要将专用于正则表达式处理的内存设置得更高,以便它可以处理整个文档?

更新:在大多数情况下,前导"p"(在大多数情况下)不会是同一段落标签的结尾"/p"标签。

更新:返回的结果将类似于:

<p>this is the first tag</p>this is a bunch of text from the document, could be all manner of tags <p>this is the last paragraph tag</p>

更新:代码示例

$htmlArticle = <<< 'ENDOFHTML'
Insert data from pastebin here
http://pastebin.com/4A3FYGc8
ENDOFHTML;
$pattern = '#<html.+/html>#s'; // Works fine, returns all characters between first <html and last /html
$pattern = '#<script.+/script>#s'; // Works fine, same as above
$pattern = '#<p.+/p>#s'; // Returns nothing, nothing at all. :'(
preg_match($pattern, $htmlArticle, $matches);
var_dump($matches);
?>

溶液: ini_set("pcre.backtrack_limit"、"1000000");

我已经用尽了我的回溯限制。这是 php.ini 文件中的设置,可以使用 ini_set() 在代码中设置。奇怪的是,我用 ini_set() 设置了值以匹配我的 php.ini 文件中的值......所以它应该从一开始就有效。 --- 感谢我尽快发布解决方案。

这很好奇。它不会返回错误,并且使用较短的文档似乎返回匹配项。我不明白为什么会发生这种情况。我已经在大量文档中使用了正则表达式,没有遇到麻烦。

请注意,这将产生匹配项:#<p'b.+<'#s

也许尝试使用回溯限制,因为有很多</p>比赛。但是,如果限制太低,我希望preg_match返回False,而不是 0!

作为解决方法,请尝试以下操作:

function extractBetweenPs($data) {
$startoffset = null;
$endoffset = null;
if (preg_match('/<p'b/', $data, $matches, PREG_OFFSET_CAPTURE)) {
    $startoffset = $matches[0][1];
    $needle = '</p>';
    $endoffset = strrpos($data, $needle);
    if ($endoffset !== FALSE) {
        $endoffset += strlen($needle);
    } else {
        // this will return everything from '<p' to the end of the doc
        // if there is no '</p>'
        // maybe not what you want?
        $endoffset = strlen($data);
    }
    return substr($data, $startoffset, $endoffset-$startoffset);
}
return '';
}

也就是说,这是一个非常奇怪的要求 - 将结构化文档的任意部分视为blob。也许你可以退后一步,说出你更广泛的目标是什么,我们可以建议另一种方法?

Regex 不是一个可以用来正确解析 HTML 的工具。

您所需要的只是 DOMDocument

$dom = new DOMDocument();
$dom->loadHTML($your_html);
$node = $dom->getElementsByTagName('p')->item(0);
$dom2 = new DOMDocument();
$node = $dom2->importNode($node, true);
$dom2->appendChild($node);
echo $dom2->saveHTML();