最近项目需要使用到OCR引擎,通过百度了解到Tesseract在这方面做的挺好的。于是便开始学习tesseract。
tesseract的github地址:https://github.com/tesseract-ocr/tesseract
现在已经更新到了4.0版本,使用了最新的LSTM网络来进行OCR的识别,较之之前的版本有技术上的提升。
编译之前首先需要下载一些工具:CMAKE和CPPAN。
CMake是一个跨平台的安装(编译)工具,可以用简单的语句来描述所有平台的安装(编译过程)。他能够输出各种各样的makefile或者project文件,能测试编译器所支持的C++特性,类似UNIX下的automake。
Cppan类死于java里的maven,是一个包的管理工具,可以很方便的对用到的类库进行管理。
下载地址:
cmake:https://cmake.org/download/
cppan:https://cppan.org/client/
下载好以后,添加环境变量。在系统环境变量的path变量里,添加cmake.exe和cppan.exe所在的路径。添加完成后,相当于把我们需要的类库管理工具装好了。
接下来下载tesseract源码。tesseract的github地址:https://github.com/tesseract-ocr/tesseract
下载tesseract源码以后,使用命令行,进入tesseract-master(tesseract源码根目录)路径下。进入以后,运行命令:cppan。即可进行相关类库的下载。会出现以下内容:
Initializing storage
Packages database was not found
Downloading database
Downloading: pvt.cppan.demo.gif-5.1.4...
Downloading: pvt.cppan.demo.jpeg-9.2.0...
Downloading: pvt.cppan.demo.gnome.pango.pangocairo-1.42.1...
Downloading: pvt.cppan.demo.openjpeg.openjp2-2.3.0...
Downloading: pvt.cppan.demo.gnome.pango.pangoft2-1.42.1...
Downloading: pvt.cppan.demo.gnome.glib.gobject-2.56.1...
Downloading: pvt.cppan.demo.xz_utils.lzma-5.2.3...
Unpacking : pvt.cppan.demo.openjpeg.openjp2-2.3.0...
Unpacking : pvt.cppan.demo.xz_utils.lzma-5.2.3...
Unpacking : pvt.cppan.demo.gif-5.1.4...
Downloading: pvt.cppan.demo.grigorig.ucdn-master...
Downloading: pvt.cppan.demo.madler.zlib-1.2.11...
Unpacking : pvt.cppan.demo.gnome.pango.pangoft2-1.42.1...
Downloading: pvt.cppan.demo.gnu.fribidi.fribidi-1.0.2...
Downloading: pvt.cppan.demo.gnome.glib.glib-2.56.1...
Unpacking : pvt.cppan.demo.gnome.pango.pangocairo-1.42.1...
Downloading: pvt.cppan.demo.webp-0.6.1...
Unpacking : pvt.cppan.demo.gnome.glib.gobject-2.56.1...
Downloading: pvt.cppan.demo.png-1.6.34...
Unpacking : pvt.cppan.demo.jpeg-9.2.0...
Unpacking : pvt.cppan.demo.grigorig.ucdn-master...
Downloading: pvt.cppan.demo.danbloomberg.leptonica-1.75.3...
Downloading: pvt.cppan.demo.freedesktop.fontconfig.fontconfig-2.13.0...
Unpacking : pvt.cppan.demo.madler.zlib-1.2.11...
下载包,解压包,编译包....很简单。
下载结束以后。
在tesseract-master(tesseract源码根目录)路径下,新建build文件夹,命令是:mkdir build。
新建完成后,进入build文件夹,命令是:cd build。
对项目进行编译,命令是:cmake ..(注意两个点号不能省略,cmake后,有空格。)
输入命令后,即可进行编译操作...等待完成即可。