Tesseract-OCR-v5.0中文识别,训练自定义字库,提高图片的识别效果

2023-05-16

1，下载安装Tesseract-OCR 安装，链接地址Index of /tesseract

2，安装成功 tesseract -v

注意：安装后，要添加系统环境变量

3，cmd指定目录到 cd C:\Work\BlogsTest\TestPic，要识别图片的文件夹识别：tesseract test.png result -l chi_sim

识别成功的效果，result.txt文件会自动生成

要注意：Tesseract-OCR的安装目录要包含识别中文的字符集chi_sim.traineddata，可以在GitHub下载GitHub - tesseract-ocr/tessdata: Trained models with support for legacy and LSTM OCR engine

4，可见第3步的识别效果不是很好，想到通过训练自定义字库,提高图片的识别效果

（0）下载安装jTessBoxEditor，VietOCR - Browse /jTessBoxEditor at SourceForge.net

注意要安装JavaRuntime

（1）打开jTessBoxEditor，选择Tools->Merge TIFF，进入训练样本所在文件夹，选中要参与训练的样本图片：

（2）点击 “打开” 后弹出保存对话框，选择保存在当前路径下，文件命名为 “qq66.test.exp0.tif” ，格式只有一种 “TIFF” 可选。

tif文面命名格式[lang].[fontname].exp[num].tif
lang是语言，fontname是字体，num为自定义数字。

比如我们要训练自定义字库 qq66，字体名test，那么我们把图片文件命名为 qq66.test.exp0.tif

（3）使用tesseract生成.box文件

tesseract qq66.test.exp0.tif qq66.test.exp0 -l chi_sim --psm 6 batch.nochop makebox

注意：--psm的语法，数字对应不同的页面分割模式。

（4）使用jTessBoxEditor矫正.box文件的错误

打开后矫正后，点击 save

（5）生成font_properties文件：（该文件没有后缀名）

执行命令，执行完之后，会在当前目录生成font_properties文件
echo test 0 0 0 0 0 >font_properties

也可以手工新建一个名为font_properties的文本文件，输入内容 “test 0 0 0 0 0” 表示字体test的粗体、倾斜等共计5个属性。这里的“test”必须与“qq66.test.exp0.box”中的“test”名称一致。

（6）使用tesseract生成.tr训练文件

执行下面命令，执行完之后，会在当前目录生成qq66.test.exp0.tr文件。

tesseract qq66.test.exp0.tif qq66.test.exp0 nobatch box.train

（7）生成字符集文件：

执行下面命令：执行完之后会在当前目录生成一个名为“unicharset”的文件。

unicharset_extractor qq66.test.exp0.box

（8）生成shape文件：

执行下面命令，执行完之后，会生成 shapetable 和 zwp.unicharset 两个文件。

shapeclustering -F font_properties -U unicharset -O qq66.unicharset qq66.test.exp0.tr

（8）生成聚字符特征文件

执行下面命令，会生成 inttemp、pffmtable、shapetable和zwp.unicharset四个文件。

mftraining -F font_properties -U unicharset -O qq66.unicharset qq66.test.exp0.tr

（9）生成字符正常化特征文件

执行下面命令，会生成 normproto 文件。

cntraining qq66.test.exp0.tr

（10）文件重命名
重新命名inttemp、pffmtable、shapetable和normproto这四个文件的名字为[lang].xxx。

这里修改为qq66.inttemp、qq66.pffmtable、qq66.shapetable和qq66.normproto

（11）合并训练文件
执行下面命令，会生成qq66.traineddata文件。

combine_tessdata qq66.

最后文件目录

5，用新生成的qq66.traineddata字符集，重新识别身份证

6，可以同时选择多个不同的样本生成box文件

7，在原有训练数据的基础上，加入新的字符训练信息

经研究找到实用合并方法（红色部分为示例，实际应为你自己生成的文件名）：

在新的训练数据生成.box 和.tr文件后，

生成字符集 unicharset_extractor add.font.exp0.box new.font.exp0.box

合并训练数据(.tr)

mftraining -F font_properties -U unicharset -O added.unicharset add.font.exp0.tr new.font.exp0.tr

聚合所有的tr文件：

cntraining add.font.exp0.tr new.font.exp0.tr

8，设置图片分割模式

Page segmentation modes:

0 = Orientation and script detection (OSD) only.
1 = Automatic page segmentation with OSD.
2 = Automatic page segmentation, but no OSD, or OCR
3 = Fully automatic page segmentation, but no OSD. (Default)
4 = Assume a single column of text of variable sizes.
5 = Assume a single uniform block of vertically aligned text.
6 = Assume a single uniform block of text.
7 = Treat the image as a single text line.
8 = Treat the image as a single word.
9 = Treat the image as a single word in a circle.
10 = Treat the image as a single character.

例如：

tesseract test.png result -l chi_sim -psm 7 nobatch

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Tesseract-OCR-v5.0中文识别,训练自定义字库,提高图片的识别效果的相关文章

Microsoft Azure 认知服务手写检测边界框参数

我目前正在使用Microsoft Azure 认知服务手写检测 API https learn microsoft com en in azure cognitive services computer vision quickstarts
如何使用 PHP 在网站上实现 OCR？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
Tesseract 对阿拉伯语单词/字母不返回任何内容

我已经安装了 Pytesseract 它可以完美地处理法语英语文本以及数字但是当我尝试阅读任何阿拉伯文本字母时它不会返回任何内容这是我使用过的代码 try from PIL import Image except ImportEr
Android Studio 上的 Android Tesseract OCR [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案一段时间以来我一直在尝试将 tesseract 包含在 Android Studio 上的 Andro
Windows 7 OCR API

我一直在审查 Office 2007 MODI OCR 的替代品 OneNote 2010 解决方案的质量结果低于 2007 我注意到一旦您安装了可选 tiff 过滤器 http technet microsoft com en us
提高识别率的图像预处理步骤

我正在为我的项目使用 TessBaseAPI 制作一个简单的 OCR Android 应用程序我已经完成了一些图像预处理步骤例如二值化和图像增强但他们的结果是50 到60 怎样才能提高识别率呢我包括两个示例图像 http image
超正方错误 - 图像太大

对于大小为 5 MB 的图像我从 tesseract 收到以下错误 Tesseract 开源 OCR 引擎 v3 01 与 Leptonica 第0页图片太大 39667 56133 处理过程中出错文件大小是否有限制或者是否有参数可
Python Tesseract 无法识别这种字体

我有这个图像我想使用 python 将其读取为字符串我认为这并不难我发现了 tesseract 然后是使用 tesseract 的 python 脚本的包装器所以我开始阅读图像效果很好直到我尝试阅读这张图像我是否需要训练它来读
让 tesseract 只识别数字

我正在尝试改进我制作的 OCR 程序来读取我正在使用的某个图像的布局现在我希望我的 OCR 程序只能识别数字 0 9 我尝试遵循问题的解决方案限制 tesseract 正在寻找的字符 https stackoverflow com q
OCR 解析获取复选框或单选按钮值

I need to parse OCR image file and get all texts and checkbox values How to get Checkbox or Radio Button value from OCR
有没有办法在 venv/web 服务器中安装 Tesseract OCR？

我制作了一个执行 OCR 功能的 Python 脚本然后回收了该脚本并使用 Flask 制作了一个 Web 应用程序 Web 应用程序及其库位于 virtualenv 中但该应用程序使用操作系统 Windows 中安装的 Tessera
tesseract (v3.03) 输出为 PDF [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案为什么会返回这个错误呢 root amd 3700 2gb ocr test tesseract l dan pdf png out pd
从图像中识别数字

我正在尝试编写一个应用程序来查找图像内的数字并将它们相加如何识别图像中的书写数字图像中有很多框我需要获取左侧的数字并将它们相加得出总数我怎样才能实现这个目标编辑我对图像进行了 java tesseract ocr 但没有得到任何
在python中使用tesseract 3.02的C API与ctypes和cv2

我正在尝试在 python 中将 Tesseract 3 02 与 ctypes 和 cv2 一起使用 Tesseract 提供了一组公开的 DLL C 风格 API 其中之一如下 TESS API void TESS CALL TessB
在进行字符识别之前使用 OpenCV 进行图像预处理（超正方体）

我正在尝试开发简单的 PC 应用程序用于车牌识别 Java OpenCV Tess4j 图像不是很好进一步它们会很好我想对超立方体图像进行预处理但我被困在车牌检测矩形检测上我的步骤 1 源图像 Mat img new Mat i
如何提取图像中的表格

我想从图像中提取表格这个 python 模块https pypi org project ExtractTable https pypi org project ExtractTable 与他们的网站https www extractta
在tesseract中添加任何traineddata文件并在IOS中使用

我能够编译英语版本该版本已经在 tesseract 的示例中但无法添加其他语言例如 ara traineddata 我正在做这样的事 Tesseract tesseract Tesseract alloc initWithDataPa
Tesseract 是否会忽略扫描文档中的任何非文本区域？

我正在使用 Tesseract 但我不知道它是否忽略任何非文本区域并仅针对文本我是否必须删除任何非文本区域作为预处理步骤以获得更好的输出 Tesseract 有一个非常好的算法来检测文本但它最终会给出误报匹配理想情况下您应该在将图像
Tess4j - Pdf 到 Tiff 到 tesseract - “警告：分辨率 0 dpi 无效。使用 70 代替。”

我正在使用 tess4j net sourceforge tess4j tess4j 4 4 0 并尝试对 pdf 文件进行 OCR 因此据我了解我必须首先将 pdf 转换为 tiff 或 png 其中有任何建议吗我这样做是这样的 t
如何去除给定图像中的噪声，使 ocr 输出完美？

我已经对这个孟加拉文本图像进行了大津阈值处理并使用 tesseract 进行 OCR 但输出非常糟糕我应该应用什么预处理来消除噪音我也想校正图像因为它有轻微的倾斜我的代码如下 import tesserocr from PIL i

随机推荐

获取本地时间的函数

span class token keyword function span span class token function getTime span span class token punctuation span span cla
Debian-8.7.1 系统安装

Debian 8 7 1 系统安装本人使用Linux操作系统多年 xff0c 主要是centos xff0c 但从来没用过debian系统 xff0c 今天准备安装一个系统看看 xff0c 网上查资料 xff0c 大部都是debian老版
MySQL 8.0 忘记密码/修改root密码

1 以管理员身份打开cmd窗口 xff0c 定位到MySQL安装目录下的bin目录 xff0c 输入net stop mysql 回车 xff0c 关闭MySQL数据库 2 输入mysqld console skip grant table
python使用ElementTree处理xml容易犯错的点&美化xml

python使用ElementTree处理xml容易犯错的点 amp 美化xml 引言代码环境相关先上代码引言目前因为需要写一个tool处理xml文件 xff0c 对于面向浏览器编程的我来说 xff0c 迅速打开chrome开始搜索关键
java截取视频的三种方式

String cut 61 34 ffmpeg ss 34 43 startTime 43 34 i 34 43 videoPath 43 34 t 34 43 String valueOf seconds 43 34 c v copy c
有关C语言中字符串入栈的理解

C语言中字符串的入栈写在前面对于C语言中变量入栈的顺序实际上需要具体情况具体分析 xff0c 不同操作系统下的编译器可能对此有不同的解释 xff0c 即使对于同一个C的编译器而言 xff0c 参数设定的不同也会导致编译器调整局部变量的入
win10 安装MySQL 无管理员权限

1 找到下载的安装文件 xff0c 按住Shift键 xff0c 同时在安装文件上点击鼠标右键 xff0c 选择复制为路径 2 打开C Windows System32 xff0c 找打cmd exe xff0c 点击右键选择以管理员方式运
Bootstrap broker localhost:9092 (id: -1 rack: null) disconnected

现象描述 xff1a 代码连接本地kafka没有问题能监听到监听的topic xff0c 可获取通道中的所有topic 将kafka放到服务器上 xff0c 本地程序启动报异常 xff0c 可获取kafka中所有的topic xff0c
java 视频转换 avi 转 MP4

添加jar 包 lt dependency gt lt groupId gt ws schild lt groupId gt lt artifactId gt jave core lt artifactId gt lt version gt
前后端分离，SpringBoot。WEBSocket后台报警页面提示

前端JS var websocket 61 null 判断当前浏览器是否支持WebSocket 主要此处要更换为自己的地址 if 39 WebSocket 39 in window websocket 61 new WebSocket 34
MYSQL 依据字段值分段统计

SELECT sum mun max from select ceil distance 500 1 500 as min ceil distance 500 500 as max count mun from tablename wher
java8转换数组。找到最接近指定数据

List lt String gt lsstr 61 Arrays asList arear 数组转list List lt String gt listWithoutNulls 61 lsstr stream filter Objects
nested exception is java.lang.IllegalStat eException:duplicate spring bean

nested exception is java lang IllegalStat eException duplicate spring bean 多次注入bean信息 xff0c 经过长时间排查 xff0c 我是将项目进行整合 xff0
Artifact xxx:war exploded: Error during artifact deployment.

Artifact xxx war exploded Error during artifact deployment 出现这个问题 xff0c 在网上查资料 xff0c 1 说是idear 配置的tomcat Artifact 添加的Var
zTree取消父子关联

对于zTree父子关联关系的设置 xff0c zTree里面自带了一个chkboxType函数取消父子关联 xff0c 只需要在初始化树的时候 xff0c 在settings里面设置 xff1a check enable true chk
解决Linux系统下，出现“不在sudoers文件中，此事将被报告”的问题

使用sudo mkdir software xff0c 提示XXX 不在 sudoers 文件中此事将被报告是因为当前操作用户的权限不足 xff0c 而root用户只有在权限分配及系统设置时才会使用 xff0c 而root用户的密码也不
结构体数组的引用方式

期末复习时发现答案中有p i a的用法 xff0c 遂进行了一番测试 xff0c 所获心得记载如下引用结构体指针数组时 xff0c p i 61 61 A i 61 61 p 43 i 注意加括号 xff0c 优先级较低具体为 xff1
Hadoop安装和配置

1 安装Hadoop 注意 xff1a 安装JDK类似 xff0c 解压后配置环境变量 1 0 Hadoop下载地址 xff1a https archive apache org dist hadoop common hadoop 2 7
机器学习（1)机器学习的范围

机器学习的范围包括但是不局限与如下 xff1a 机器学习跟模式识别 xff0c 统计学习 xff0c 数据挖掘 xff0c 计算机视觉 xff0c 语音识别 xff0c 自然语言处理等领域有着很深的联系从范围上来说 xff0c 机器学习跟
Tesseract-OCR-v5.0中文识别,训练自定义字库,提高图片的识别效果

1 xff0c 下载安装Tesseract OCR 安装 xff0c 链接地址Index of tesseract 2 xff0c 安装成功 tesseract v 注意 xff1a 安装后 xff0c 要添加系统环境变量 3 xff0c

Tesseract-OCR-v5.0中文识别,训练自定义字库,提高图片的识别效果

Tesseract-OCR-v5.0中文识别,训练自定义字库,提高图片的识别效果 的相关文章

随机推荐

热门标签

Tesseract-OCR-v5.0中文识别,训练自定义字库,提高图片的识别效果的相关文章