I'm trying to extract digits from the following:
它失败了,我得到了~作为回报。我正在使用 google 的 tesseract 2,使用 C#(开源 c# 包装器),现在我想知道,这个图像是否太糟糕而不能用于 OCR?
因为恕我直言,数字很清楚。
您是否有其他 OCR 引擎可以解决这个问题?
EDIT
我也尝试过阿斯普瑞OCR (http://asprise.com/product/ocr/selector.php http://asprise.com/product/ocr/selector.php)但它也无法解析图像......
我建议调整大小。我在 IE 中将此页面缩放到 200%,截取屏幕截图,将其打印为 PDF 并将其导入到我使用 tessnet 的程序中。苔丝成功了!除非我读错了#s:-)
尽管置信度 = 140(如果您想知道,最好低于 100)。当然,当我尝试原始尺寸时,我没有得到〜;我得到了大约 1/2 的#,一堆字母和其他垃圾。不够好,但更好。
t2 似乎喜欢特定尺寸的图像。
我的程序进行处理以使其正常工作。建议使用 .net GDI+ 转换为 32 位,并使用插值模式高质量双三次调整大小。这似乎有点“填补空白”。
尝试使用合适的尺寸 - 我发现太大或太小,超正方体的表现都会有所不同。
这两个问题都是预处理,这很简单,你会尝试 tesseract;但是,我知道如何调整大小和插值;我不知道怎么OCR!所以我愿意和解。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)