我需要从这样的小图像中提取单词:
我在命令行中使用带有西班牙语选项的 tesseract,如下所示:
tesseract category.png -l spa -psm 7 category.txt
我认为该文本一定很容易被 OCR 解析,但该单词无法识别。我在用-l spa
对于西班牙语和-psm 7
因为图像只有一行(无论如何,如果我不使用 -psm 参数,结果是相同的)。
这是结果:s…"…
我将此构建与 lang 包一起使用:http://domasofan.spdns.eu/tesseract/ http://domasofan.spdns.eu/tesseract/(github上引用的官方来源)
Tesseract 在扫描低分辨率字符时似乎真的很困难。
尝试扫描此图像。我将其分辨率提高了 400%(我认为扫描 200% 是可能的,但让我们尝试 400%),进行了大量的模糊处理,并将阈值设置为 ~140。尝试扫描这个,结果应该会好得多,我希望这能让您满意。如果您需要以编程方式执行此操作,请在评论中写下您不清楚的内容,我将为您提供一些附加信息。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)