字符串比较；空白“；PHP中的Unicode字符 - String comparison for "blank" Unicode characters in PHP

String comparison for "blank" Unicode characters in PHP

我正在尝试检测Unicode字符串是否可打印。

例如，我有一个用户将他们的名称设置为%EF%B8%8F，这是变体选择器-16（U+FE0F）

我想做一些类似的事情

if ($screen_name == null || $screen_name == NotPrintable )
{
    ...Show an error...
} else  {
    ...Proceed as normal...
}

是否有任何方法可以检测Unicode字符串是否可打印？

用户名可以是任何有效的Unicode序列（英语、中文、阿拉伯语等）。

前面的一些答案建议使用复杂的正则表达式，看起来它们只适用于很窄的字符范围。

我试过计算字符串的长度，但这不起作用-

$odd = urldecode("%EF%B8%8F"); print strlen($odd); 3mb_strlen()的结果也相同。

像ctype_print()这样的函数不起作用，因为常规字符串可能包含不可打印的字符。

那么，有没有什么方法可以检测Unicode字符串是否会显示可打印字符？

根据unicode的PHP regexp指南，我假设您希望保留所有字母（L）、标记（M）、数字（N）、标点符号（p）、符号（S）和空格（Z），并转储其他所有内容（如控制字符）。因此，正则表达式为：

$out=preg_replace('/[^'pL|'pM|'pN|'pP|'pS|'pZ]/u','',$in);

似乎起了作用。

[编辑]

好吧，这不适用于提供的

$in=urldecode('%EF%B8%8F');

示例（它解码为Unicode代码点U+FE0F/&#65039；。以下代码可以处理它：

$len=mb_strlen($in);
$out='';
$disallowedTypes=[IntlChar::CHAR_CATEGORY_NON_SPACING_MARK];
for ($i=0;$i<$len;$i++) {
 $char=mb_substr($in,$i,1);
 $type=IntlChar::charType($char);
 if (false===in_array($type,$disallowedTypes)) {
  $out.=$char;
  //print 'Adding ord '.dechex(IntlChar::ord($char)).' which is '.IntlChar::charType($char).PHP_EOL;
 }
}

但我不喜欢遍历字符串并比较每个字符。。。如果你找到更好的方法，请告诉我。

这个Regex怎么样？

<?php
define("CTYPE_PRINT_UNICODE_PATTERN", "~^['pL'pN's'"'~". preg_quote("!#$%&'()*+,-./:;<=>?@[']^_`{|}´") ."]+$~u");
function ctype_print_unicode($input) {
    return preg_match(CTYPE_PRINT_UNICODE_PATTERN, $input);
}
print ctype_print_unicode("3 muços?"); // 1