从OCR引擎中提取和解析特定的布局信息 - Extracting and parsing specific layout info from OCR engine

Extracting and parsing specific layout info from OCR engine

我试图用PHP解析OCR引擎的布局信息，除了他们没有给出任何细节。

我安装了Tesseract (with Leptonica)和Cuneiform。据说Cuneiform在检测布局(即什么是文本，什么是图片等)方面非常出色。输入是带有文本和图像的PNG文件(显然文本是图像的一部分)

他们似乎都认为我希望输出为txt或html或hocr…当我想要的是它认为是文本和它认为是图像的坐标

楔形文字有一个"原生"输出选项，它是楔形文字2000格式，在notepad++中打开它，我可以看到它被压缩了。我试过用zip和gzip提取它，但都不认识它。在Google上也没有关于原生楔形文字格式的信息。

有谁知道如何从Tesseract或Cuneiform中提取布局信息…或者有更好的想法来弄清楚包含文本块和图片的图像的布局?

看看ABBYY FineReader Engine。它有一个非常智能的API，可以提供关于已识别文本的最大信息，包括其坐标。它不是免费的，但当涉及到商业软件时- ABBYY OCR技术可以为您的产品增加重要的价值。

因为你正在用PHP开发一个web应用程序，你可能想在www.ocrsdk.com上使用ABBYY OCR引擎web API。