我正在尝试检测Unicode字符串是否可打印。
例如,我有一个用户将他们的名称设置为%EF%B8%8F
,这是变体选择器-16(U+FE0F)
我想做一些类似的事情
if ($screen_name == null || $screen_name == NotPrintable )
{
...Show an error...
} else {
...Proceed as normal...
}
是否有任何方法可以检测Unicode字符串是否可打印?
用户名可以是任何有效的Unicode序列(英语、中文、阿拉伯语等)。
前面的一些答案建议使用复杂的正则表达式,看起来它们只适用于很窄的字符范围。
我试过计算字符串的长度,但这不起作用-
$odd = urldecode("%EF%B8%8F");
print strlen($odd);
3
mb_strlen()
的结果也相同。
像ctype_print()
这样的函数不起作用,因为常规字符串可能包含不可打印的字符。
那么,有没有什么方法可以检测Unicode字符串是否会显示可打印字符?
根据unicode的PHP regexp指南,我假设您希望保留所有字母(L)、标记(M)、数字(N)、标点符号(p)、符号(S)和空格(Z),并转储其他所有内容(如控制字符)。因此,正则表达式为:
$out=preg_replace('/[^'pL|'pM|'pN|'pP|'pS|'pZ]/u','',$in);
似乎起了作用。
[编辑]
好吧,这不适用于提供的
$in=urldecode('%EF%B8%8F');
示例(它解码为Unicode代码点U+FE0F/️;。以下代码可以处理它:
$len=mb_strlen($in);
$out='';
$disallowedTypes=[IntlChar::CHAR_CATEGORY_NON_SPACING_MARK];
for ($i=0;$i<$len;$i++) {
$char=mb_substr($in,$i,1);
$type=IntlChar::charType($char);
if (false===in_array($type,$disallowedTypes)) {
$out.=$char;
//print 'Adding ord '.dechex(IntlChar::ord($char)).' which is '.IntlChar::charType($char).PHP_EOL;
}
}
但我不喜欢遍历字符串并比较每个字符。。。如果你找到更好的方法,请告诉我。
这个Regex怎么样?
<?php
define("CTYPE_PRINT_UNICODE_PATTERN", "~^['pL'pN's'"'~". preg_quote("!#$%&'()*+,-./:;<=>?@[']^_`{|}´") ."]+$~u");
function ctype_print_unicode($input) {
return preg_match(CTYPE_PRINT_UNICODE_PATTERN, $input);
}
print ctype_print_unicode("3 muços?"); // 1