如何转换混合编码文件的字符


how do I convert the characters of a mixed encoded file

我从PDF文件中复制并粘贴了文本,但它没有提取数字。 如果我对导出的 txt 文件执行更少或更多操作,我会看到以下内容:

"Christina, daughter of David Brodie, on <U+F735> November <U+F731><U+F736><U+F736><U+F735>. She was the sister of" 

其内容应为:

"克里斯蒂娜,大卫·布罗迪的女儿,1665年11月5日。她是"

最初,我认为这将是一个简单的搜索和替换,但是<U+F73n>数字是编码的,我不确定如何提取它们,甚至不确定它们是如何编码的,尽管我确实将文件保存为utf-8原来。 我尝试使用 php 的 mb_string 函数来查看是否可以以某种方式提取代码,但我没有成功。

没有其他人遇到过这个问题,有没有一个简单的解决方案躲过我?

不幸的是,

U+Fxxx 在 Unicode 的私人使用区。没有自动的方法可以解决这个问题,除非提前知道映射。根据示例中的代码点,我冒昧地说,您可以从字符值中减去0xF731,然后添加0x30以将它们转换为 ASCII 数字。