在过去的三个月里我一直在尝试训练 Tesseract
通过识别我拥有的图像集合,由于真正的缺乏
适当的文档,以及非常高的复杂性,我开始
放弃 Tesseract 作为解决方案。
我正在寻找一种相对无痛的替代方案
对于训练,我不想在这里重新发现轮子。
如果没有免费的东西,我想付费解决方案会
必须做的事(不超过 200 美元)
根据您的评论,您所需要的只是扫描相对少量的文档,几乎 100% 准确,您的预算约为 200 美元
那么答案很简单。您不需要任何编程解决方案。只需购买优质的商业 OCR 产品,例如ABBYY FineReader(免责声明:我为 ABBYY 工作)。不同的地区有不同的价格,但我想它在你的预算范围内。
商业桌面 OCR 产品将为您提供开箱即用的典型语言几乎 100% 的准确性。他们还拥有方便的手动验证工具来修复所有剩余的错误。通常,它们支持各种现代字体,但如果您的字体不简单,它们确实有字体训练实用程序。
我确实认为这对您来说是最佳解决方案。
更新:Linux 平台。
遗憾的是,Linux 上几乎没有高质量的 OCR 产品可供选择,抱歉。我唯一知道的是 ABBYY 的:http://ocr4linux.com/en:start http://ocr4linux.com/en:start但它没有UI、验证和字体训练。但至少你可以尝试一下,看看它是否能给你足够好的准确度,情况可能正是如此。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)