删除MS字“;HTML”;使用PHP


Remove MS Word "HTML" using PHP

可能重复:
清理Word HTML的最佳免费方式是什么
PHP清理粘贴的Microsoft输入

我允许客户端在富文本编辑器中输入注释,并且最近才升级到ckEditor 3x,默认情况下(当用户粘贴到编辑器对象中时),它会剥离MS单词类、样式和注释。所以我已经做好了准备。

我最近需要清理5年的笔记,其中一些笔记嵌入了MS word生成的HTML。我需要循环浏览这部分文本并将其清除。

我不需要去掉所有的span标签,只需要去掉那些由Microsoft编写的标签。

我尝试过使用HTMLCleaner,但它并没有删除MS生成的HTML。http://word2cleanhtml.com这正是我想要的,但是开发人员目前还没有提供API供公众使用(截至2012年7月9日)。

在过去的几周里,我一直在断断续续地寻找这样一门课,但运气并不好。你们中有人找到有用的课程想要分享吗?

http://htmlpurifier.org/

这会做你想做的事。