使用 PHP 从 PDF 文件中提取 HTML 表


Extract HTML table from PDF file using PHP?

我想知道是否可以将数据表从PDF文件提取到数组或类似文件中,以便我可以使用PHP导入表数据?我安装了 DomPDF 来创建 PDF 文件,但这没有阅读 PDF 的选项。如果我在 PHP 中读取 PDF 文件,我会得到一个编码字符串:

%PDF-1.5 5 0 obj <>>> endobj 6 0 obj <>stream x��ێ+��W�'`��E���u

任何帮助将不胜感激。

亚当

这篇文章很旧,但似乎有相当多的观点。

我正在从事一个类似的项目,并且在这个 https://github.com/mgufrone/pdf-to-html 上取得了一些成功。HTML 返回只是一堆绝对定位的 p 标签,但如果 pdf 的格式一致,您可能会有一些运气来解析表格或至少获取所需的数据。

只需确保您已安装poppler实用程序即可。