从网页中提取未包含在标记中的文本 - Pulling text not enclosed in tags from a webpage

Pulling text not enclosed in tags from a webpage

本文关键字：文本包含网页提取 | 更新日期: 2023-09-27

我正在尝试使用PHP中的DOMDocument抓取网页并从中提取文本。不幸的是，HTML很难使用。例如，它看起来像这样：

<p class="thisClass">
    <a href="/a/link">Link</a>
    <br>
    The text I need: 0613
    <br>
</p>

我不确定如何拉出"我需要的文本：0613"，因为它没有包含在自己的标签中。正则表达式会是解决这个问题的最佳方式吗？我知道该行的格式将始终是"我需要的文本："，后跟一个四位数字。

I know that the format of the line will always be "The text I need: " followed by a four digit number.

在这种情况下，您可能可以使用：

preg_match('/The text I need:'s*('d+)/i', $str, $matches);

您需要的号码将在$matches[1]中提供。

PS：但是，为了可靠地解析HTML页面，请使用DOM解析器。