php中的pdf文本提取器类


pdf text extracter class in php

php中是否有任何类可以从pdf文件中提取所有文本,以便将其存储在mysql数据库中。我的pdf有很多元素,如图像、表格、纯文本、表单元素、图表等。

到目前为止,在过去的两天里,我看到了许多提取文本的课程,但没有人提供完整的文本提取,没有从pdf中提取完整的文本。

我想从给定的pdf文件中提取所有文本,即使文本在表格等中。

有人知道这件事吗?:)

非常感谢。祝你今天愉快:)

查找以下url,

使用PHP 读取PDF中的干净文本

如果您在linux服务器上运行此程序,您可以尝试使用apdf2text通过exec调用它,然后抓取输出文件的内容。

请注意,有一些pdf到文本的脚本,你会从中获得不同的里程。

我测试了很多命令行程序,但没有一个能得到100%的结果。所以我用PHP创建了自己的库:

https://github.com/smalot/pdfparser

目前它是面向文本的,但将计划支持图像。

如果你遇到问题,谢谢你把你的PDF发给我,如果可能的话,还有你的制作方式。