如何使用php排除regEx中MS Word创建的垃圾字符


how do I exclude MS Word created junky chars in regEx with php

我用$text=fread($filename,$filesize)读取了MS Word文档;

然后当我回显$text时,它有一些浏览器无法正确显示的字符,并输出一些损坏的字符。我正试图用以下正则表达式来清除它们:

preg_replace('/[^'w]/','',$text);,但它没有按我的意愿工作。

有人能帮忙吗?

正如注释中已经提到的,您应该使用一个工具将.doc文件转换为更可用的文件,如纯文本。

否则,您可以在输出每一行时尝试以下regexp,它只在字符串中保留数字、单词和空白字符:

preg_replace("/^([^'d'w's])$/i", "", $text);