因为用户从Word复制粘贴文本,看起来像这样:
“What’s the matter?” PART 2– A Review”
结果是:
%93What%92s the matter?%94 PART 2%96 A Review%94
我需要它是:
"What's the matter?" PART 2- A Review"
我正在寻找一个PHp库,它可以转换这样的文本,并以标准化的方式进行转换,因为这里的字符比我在这里列出的要多得多,例如(c)版权符号等。
您需要iconv
。iconv()
函数可以选择将特殊字符(如Latin1(ISO 8859-1)中的花引号)音译为您使用的任何编码中的适当字符,如UTF-8中的花括号或ASCII中的直引号(')。
如果这是一个web表单,则浏览器可能已经从Latin1转换为UTF-8。例如,如果你想把它存储在ASCII中,你可以使用这个:
$ascii = iconv('UTF-8', 'ASCII//IGNORE//TRANSLIT', $utf8);
试试这个
function msword_conversion($str)
{
$invalid = array('Š'=>'S', 'š'=>'s', 'Đ'=>'Dj', 'đ'=>'dj', 'Ž'=>'Z', 'ž'=>'z',
'Č'=>'C', 'č'=>'c', 'Ć'=>'C', 'ć'=>'c', 'À'=>'A', 'Á'=>'A', 'Â'=>'A', 'Ã'=>'A',
'Ä'=>'A', 'Å'=>'A', 'Æ'=>'A', 'Ç'=>'C', 'È'=>'E', 'É'=>'E', 'Ê'=>'E', 'Ë'=>'E',
'Ì'=>'I', 'Í'=>'I', 'Î'=>'I', 'Ï'=>'I', 'Ñ'=>'N', 'Ò'=>'O', 'Ó'=>'O', 'Ô'=>'O',
'Õ'=>'O', 'Ö'=>'O', 'Ø'=>'O', 'Ù'=>'U', 'Ú'=>'U', 'Û'=>'U', 'Ü'=>'U', 'Ý'=>'Y',
'Þ'=>'B', 'ß'=>'Ss', 'à'=>'a', 'á'=>'a', 'â'=>'a', 'ã'=>'a', 'ä'=>'a', 'å'=>'a',
'æ'=>'a', 'ç'=>'c', 'è'=>'e', 'é'=>'e', 'ê'=>'e', 'ë'=>'e', 'ì'=>'i', 'í'=>'i',
'î'=>'i', 'ï'=>'i', 'ð'=>'o', 'ñ'=>'n', 'ò'=>'o', 'ó'=>'o', 'ô'=>'o', 'õ'=>'o',
'ö'=>'o', 'ø'=>'o', 'ù'=>'u', 'ú'=>'u', 'û'=>'u', 'ý'=>'y', 'ý'=>'y', 'þ'=>'b',
'ÿ'=>'y', 'Ŕ'=>'R', 'ŕ'=>'r', "`" => "'", "´" => "'", "„" => ",", "`" => "'",
"´" => "'", "“" => "'"", "”" => "'"", "´" => "'", "’" => "'", "{" => "",
"~" => "", "–" => "-", "’" => "'");
$str = str_replace(array_keys($invalid), array_values($invalid), $str);
return $str;
}
我想你要找的是urldecode()
如前所述,urldecode()
是您要查找的函数。基本上,为了安全使用URL,对内容进行了编码。但是,请注意,word使用66和99风格的引号字符,而不是大多数HTML内容中使用的标准引号字符串"
,因此,对这些值执行str_replace()
可能也是值得的,这样,当向用户显示包含该内容的页面时,您就不必担心字符编码问题。