如何转换混合编码文件的字符 - how do I convert the characters of a mixed encoded file

how do I convert the characters of a mixed encoded file

我从PDF文件中复制并粘贴了文本，但它没有提取数字。如果我对导出的 txt 文件执行更少或更多操作，我会看到以下内容：

"Christina, daughter of David Brodie, on <U+F735> November <U+F731><U+F736><U+F736><U+F735>. She was the sister of"

其内容应为：

"克里斯蒂娜，大卫·布罗迪的女儿，1665年11月5日。她是"

最初，我认为这将是一个简单的搜索和替换，但是<U+F73n>数字是编码的，我不确定如何提取它们，甚至不确定它们是如何编码的，尽管我确实将文件保存为utf-8原来。我尝试使用 php 的 mb_string 函数来查看是否可以以某种方式提取代码，但我没有成功。

有

没有其他人遇到过这个问题，有没有一个简单的解决方案躲过我？

不幸的是，

U+Fxxx 在 Unicode 的私人使用区。没有自动的方法可以解决这个问题，除非提前知道映射。根据示例中的代码点，我冒昧地说，您可以从字符值中减去0xF731，然后添加0x30以将它们转换为 ASCII 数字。