如果离您最近的工程图书馆有关于图像处理、计算机视觉或机器视觉的部分,那么幸运的是,该图书馆将拥有我推荐的 OCR 书籍的副本:
字符识别系统作者:Cheriet、Kharma、Liu 和 Suen
本书对 OCR 技术和最新研究进行了相当全面的概述。它没有深入探讨任何特定主题,但确实提供了学术论文的参考。
确保您可以获得一本好的图像处理入门教科书。冈萨雷斯和伍兹的书是许多大学的标准:
数字图像处理冈萨雷斯和伍兹
即使是“简单”的 OCR 也会很快变得棘手。如果您在牢牢掌握基本图像处理原理之前就跳入有关神经网络、贝叶斯定理等的课程,可能会感到不知所措。
如果可以,请先尝试为机器打印字符编写一种或多种 OCR 算法,然后再尝试为手写字符编写算法。
Q1:在哪里可以找到算法(或教程)
OCR 有多种算法。 Cheriet 书将为您提供一个良好的开端。
Q2:如何对数字进行分类?我不需要很先进的东西。我首先想到的是找到上半部/下半部和左侧/右侧的比率。有没有更有用、更简单的分类方法。
尝试实施该技术,看看它的效果如何。即使实施效果不如您所愿,实施过程中吸取的经验教训也可以在以后为您提供帮助。
您还可以将字符细分为 2 x 2 网格或 3 x 3 网格,并检查像素的相对密度。与机器打印的字符不同,手写字符在直线网格中无法很好地排列。
使用归一化相关性的模板匹配很简单,并且对于单一已知字体的机器打印字符可以相当好地工作。实现起来比较简单,值得学习:http://en.wikipedia.org/wiki/Cross-correlation#Normalized_cross-correlation http://en.wikipedia.org/wiki/Cross-correlation#Normalized_cross-correlation
对于 OCR,通常第一步是细化样本中的字符。细化是一种将字符(或任何其他形状)缩小为 1 像素宽的表示形式的技术。一旦你有了细化的字符,就可以更容易地识别线条和交叉点。如果您可以识别直线(或曲线)和相交,那么一种技术是查看每条线相对于其他线的相对位置和角度。
常见的细化算法包括Stentiford和Zhang-Suen。 WinTopo 的免费软件版本演示了这两种算法:http://wintopo.com/ http://wintopo.com/
您可以查看有关“笔画提取”的学术论文,但这些技术往往更难实施。
Q3:什么是反向传播以及大多数论文中显示的层。我的简单 OCR 需要它们吗?
这些术语指的是人工神经网络。对于简单的 OCR 算法,您将硬编码识别逻辑或使用简单的训练方法。可以训练人工神经网络来识别软件中未硬编码的字符。http://en.wikipedia.org/wiki/Neural_network http://en.wikipedia.org/wiki/Neural_network
尽管您不需要了解人工神经网络来编写简单的 OCR 算法,但简单的算法对于手写字符的成功率有限。
最重要的是,请记住,手写字符的 OCR 是一个极其困难的问题。如果您可以通过简单的技术实现 20% 的手写字符读取率,那么就认为这是成功的。