从PDF到CSV的数据抓取?Python vs PHP


Scraping data from PDF to CSV? Python vs PHP?

我每天都要手工编写一堆报告,这太花时间了,所以我想把整个过程自动化。我将从:(1)HTML, (2) CSV/XLS, (3) PDF中抓取数据。我主要只是用PHP从CSV/HTML中抓取数据,并且想知道是否有任何可靠的库或方法可以从PHP中的PDF中抓取表数据?

我也刚刚开始学习Python,并看到尝试使用PDFMiner与Scrapy一起做这件事可能是一个好主意。这样会更好吗?或者还有其他选择吗?

请告诉我。谢谢!

Beautiful Soup是另一个很好的抓取选择,PDFminer是我发现的最好的Python PDF解析器。我主要使用pdf2txt.py,然后根据需要重新格式化。

如果您可以通过命令行访问linux服务器,请尝试使用pdftotext命令

$ pdftotext file.pdf

如果你幸运的话,你会得到一些你可以使用的东西。根据我的经验,根据PDF格式的不同,文本可能会与表格最初的格式不同。好运。