我必须分析包含英语和日语文本的图像。当我默认运行 tesseract 时(-l eng
),一些日语字符丢失了。否则,如果我用日语运行 tesseract (-l jpn
)一些英文字符丢失(例如电子邮件)。
如何运行一个同时识别英语和日语字符的进程?
从 tesseract 3.02 开始,可以为 -l 参数指定多种语言。
-l lang 要使用的语言。如果未指定,则假定为英语。可以指定多种语言,并用加号分隔。
Tesseract 使用 3 字符 ISO 639-2 语言代码。
一个例子:
tesseract myscan.png out -l deu+eng
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)