"Â"；字符出现而不是“&；nbsp&”；

"Â " character showing up instead of " "

本文关键字：quot amp nbsp #194 字符 | 更新日期: 2023-09-27

我发现这个线程很好地描述了我的问题，这个答案准确地描述了我们的问题。

不间断空格字符为字节0xA0为ISO-8859-1；当编码为UTF-8时，它将是0xC2,0xA0，如果您（错误地）将其视为ISO-8859-1，则会显示为"Â "。这包括一个尾部nbsp。。。

然而，我已经设法将我的问题归结为一个函数，该函数用于在div中包装图像标签。

function img_format($str)
{
    $doc = new DOMDocument();
    @$doc->loadHTML($str);     // <-- Bonus points for the explaination of the @
    // $tags object
    $tags = $doc->getElementsByTagName('img');
    foreach ($tags as $tag) {
        $div = $doc->createElement('div');
        $div->setAttribute('class','inner-copy');
        $tag->parentNode->insertBefore($div, $tag);
        $div->appendChild($tag);
        $tag->setAttribute('class', 'inner-img');
    }
    $str = $doc->saveHTML();
    return $str;
}

很简单，我如何在这个函数中解决这个问题？

我理解使用；

<meta http-equiv="Content-Type" content="text/html;charset=utf-8" />

会解决这个问题，但很明显，我在函数本身中忽略了一些东西。

我试过了；

$dom->validateOnParse = true;

没有用。（我不太清楚这到底是怎么回事）

找到了！

@$doc->loadHTML(mb_convert_encoding($str, 'HTML-ENTITIES', 'UTF-8'));

这个答案解释了这个问题，并给出了上述工作；

DOMDocument:：loadHTML将把您的字符串视为在ISO-8859-1中，除非您另有说明。这会导致UTF-8字符串被错误地解释。

"Â " character showing up instead of "&nbsp;"

"Â " character showing up instead of " "