我在上问过这个问题超立方论坛 already
通过 Tesseract (和 ImageMagick),我试图找出这个的文本PDF file
这是我正在处理的 PDF 部分,它是第 7 行
PDF:
在本节中,Tesseract 在尝试识别时遇到了问题
字符串建设者.
It sees 建设者
应该看到建设者
任何人都可以建议任何可能的解决方案吗?
这是命令行序列:
convert -density 600 my_pdf.pdf tmp.tif
tesseract -l spa tmp.tif stdout > tmp.txt
这些是软件版本:
~% tesseract --version
tesseract 3.05.01
leptonica-1.74.4
libgif 4.1.6(?) : libjpeg 8d (libjpeg-turbo 1.3.0) : libpng 1.2.50 :
libtiff 4.0.3 : zlib 1.2.8
~% convert --version
Version: ImageMagick 6.7.7-10 2014-08-28 Q16 http://www.imagemagick.org
Copyright: Copyright (C) 1999-2012 ImageMagick Studio LLC
Features: OpenMP
为了处理PDF文件的不规则字距调整,Will建议调整参数tosp_min_sane_kn_sp
文档的https://github.com/naptha/tesseract.js/blob/master/docs/tesseract_parameters.md
Setting tosp_min_sane_kn_sp=2.8
解决了问题中描述的问题。
新的 Tesseract 调用如下:
tesseract -c tosp_min_sane_kn_sp=2.8 -l spa tmp.tif stdout > tmp.txt
默认值为tosp_min_sane_kn_sp
好像是1.5。到目前为止,我只测试了大于 1.5 的值。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)