PHP - 从不同的文件格式中提取文本 Word/Excel/Powerpoint/PDF/RTF


PHP - Extract Text from Different File Formats Word/Excel/Powerpoint/PDF/RTF

我正在开发一个Web应用程序,用户可以在其中上传不同的文件MS Word(.doc和.docx),Excel(.xls和.xlsx),Power Point,PDF,文本文件和富文本文件(.rtf)。

作为应用程序流程的一部分,我想在 IFrame、HTML 中显示文件内容的预览,但我可以使用 PHP 类处理文本

我使用的方法是:

  1. 确定每个文件的扩展名

  2. 以不同的方式处理每个文件

  3. 显示文本或 HMTL

有没有这样做的图书馆?

没有一个库可以解决这个问题,所以我使用以下每种文件类型的库解决了它:

a) MS Word 文档 - Live Docx (http://www.phplivedocx.org/2009/08/13/convert-docx-doc-rtf-to-html-in-php/)

b) MS Excel - PHP Excel (http://phpexcel.codeplex.com/)

c) 来自 PDF 的文本 - 来自此 Pastebin http://pastebin.com/hRviHKp1 的类

d) PowerPoint - 仍在进行中

我已经在我的博客上提供了更多详细信息 http://ssmusoke.wordpress.com/2012/06/16/display-contents-of-different-file-formats-wordexcelpowerpointpdfrtf-as-html/

几年前

我有过类似的任务,我们最终在服务器模式下使用OpenOffice和ImageMagick来检索PowerPoint文档的缩略图。对于某种演示文稿库。

基本上,这个想法是运行OpenOffice并将您的文档转换为PDF,然后使用ImageMagick创建该PDF第一页的缩略图。

这家伙在这里使用OpenOffice和另一个工具来转换文档:https://stackoverflow.com/a/1046159/626621(可以帮助你)

我认为这样做的好处是,作为文档预览的图像将比文本更能说明用户。