我试图阅读一个包含阿拉伯语文本的网页的源代码,但所有我得到的是这个جامعة
(这不是阿拉伯语,只有一组字符)。
如果我在本地主机上重新加载页面,就可以正确地获得阿拉伯语标记和文本。但我真的需要阅读源代码。我可以添加任何建议或代码行吗?
<html dir=rtl>
<META http-equiv=Content-Type content=text/html;charset=windows-1256>
这是包含"编码"使用的几行!该页面使用HTML和PHP
字符只是转义到HTML实体。浏览器在呈现页面时将它们解码为"真正的字符"。您可以使用html_entity_decode
:
html_entity_decode('جامعة', ENT_COMPAT, 'UTF-8')
注意最后一个参数,它设置了将被解码的字符的编码为。使用您内部使用的任何编码,我在这里只是建议使用UTF-8。