对不起,我的问题是如此可怕的措辞,但我不知道如何陈述它作为一个问题。对我来说,只显示代码和解释更容易。
我正试图写一个函数来允许标记单词。我们有一个词汇数据库,我们称之为词汇表。我想用大量的文本来寻找[G]some word/words here[/G]
的多个实例。然后我想用<a href="viewglossary.php?word={WORD/WORDS BETWEEN [G][/G]}">{WORD/WORDS BETWEEN [G][/G]}</a>
下面是我当前的函数:
function getGlossary($str)
{
$patterns = array();
$patterns[]='/'[G'](.*)'['/G']/';
$replacements = array();
$replacements[]='<a href="viewglossary.php?word=$1">$1</a>';
return preg_replace($patterns, $replacements, $str);
}
echo getGlossary($txt);
如果我只做一个实例的[G][/G]
标签,它的工作。
$txt='What you need to know about [G]beans[/G]';
这将输出
What you need to know about <a href="viewglossary.php?word=beans">beans</a>
然而这$txt='What you need to know about [G]beans[/G] and [G]corn[/G]';
将输出
What you need to know about <a href="viewglossary.php?word=beans[/G] and [G]corn">beans[/G] and [G]corn</a>
我肯定我的图案出了问题。
您需要将您的点星号设置为lazy: .*?
- 没有
?
来控制.*
,.*
将吃掉所有字符,直到最终的[/G]
-
*
量词是贪婪的,所以.*
从匹配字符串中的所有字符开始,直到最后。然后它只回溯到需要允许[/G]
匹配的地方(因此,它只回溯到最后一个[/G]
)。 -
?
使量词"懒惰",因此它们只匹配regex的其余部分需要匹配的范围。因此,它只匹配到第一个[/G]
。
修改你的正则表达式:
$pattern = "~'[G'](.*?)'[/G']~";
请注意,为了使regex更易于阅读,我更改了分隔符并对正斜杠进行了转义,因为除非分隔符是斜杠,否则不需要转义斜杠。常用分隔符包括~
, %
, @
, #
…但真正的波浪是最美丽的。:)
- Regex的多级贪婪
- 星号和加号重复