preg_match两种不同(但有些相似)的字符串模式中的任何一种


preg_match either of two different (but somewhat similar) string patterns?

我正在循环遍历一个PHP文件名数组,以构建一个匹配两种不同模式的文件选择列表。

我让它处理一种或另一种模式,但不是同时处理这两种模式:

    foreach ($file_array as $file_link) {
    $p = '~(-([a-z]{2})'.pdf(|(-([a-z]{4})'.pdf)~';
    preg_match($p, $file_link, $matches);
    switch ($matches[1]) {
        case 'en':
            $link_array[1] = array('English', $file_link);
            break;
        case 'ja':
            $link_array[2] = array('日本語', $file_link);
            break;
        ...
        case 'ptbr':
            $link_array[13] = array('Português brasileiro', $file_link);
            break;
        case 'ptpt':
            $link_array[14] = array('Português europeu', $file_link);
            break;
        ...
    }
    ...
}

$file_array中的文件格式如下:

  • 文件名-en.pdf
  • 文件名-ja.pdf
  • 文件名-ptbr.pdf
  • 文件名-ptpt.pdf

我希望在-([a-z]{2})'.pdf-([a-z]{4})'.pdf模式上匹配。我在上面的$p = '~(-([a-z]{2})'.pdf(|(-([a-z]{4})'.pdf)~';中缺少了什么来实现这一点。

此外,除了将文件名更改为另一种格式(我试图避免这种情况)之外,还有更好的方法吗?

我的客户实际上想要这种格式的文件,但这似乎更麻烦:

  • 文件名-pt-br.pdf
  • 文件名-pt-pt.pdf

谢谢!

John

使用此正则表达式以非捕获组(?:-[a-z]{2})?的形式进行额外检查,该组将捕获pt-br:

 `-([a-z]{2}(?:-[a-z]{2})?|[a-z]{4})'.pdf`
 $p = "~-([a-z]{2}(?:-[a-z]{2})?|[a-z]{4})'.pdf~";

看看演示。

如果您想在单个正则表达式中执行此操作,请尝试以下操作(请原谅%边界字符,与您的~不同。用于允许注释的x修饰符

$regex = '%
-                            # starting -
(                            # start grouping parenthesis 
    [a-z]{2}                 #     a through z repeated twice
    |                        #     or
    [a-z]{4}                 #     a through z repeated four times
)                            # end group
'.pdf$                       # string ends in .pdf
%x';

此外,虽然正则表达式总是一个有趣的练习,但不要害怕为每个模式使用一个正则表达式。虽然理论上性能会受到影响,但它很可能不会影响您的应用程序。同样,不要害怕为了一些更简单的爆炸/内爆而避开正则表达式

$parts      = explode('.', $filename);
$extension  = array_pop($parts);
$full       = implode('',  $parts);  
$parts      = explode('-', $full);
$identifier = array_pop($parts);
switch($identifier)
{
    case 'en':
        break;
    //etc...
}