Tesseract3.02训练生成新的识别语言库的详细步骤

2023-11-16

说明：本文参考了很多前辈的资料，主要是：tesseract-OCR3.0语言库训练步骤，再结合自己的实践操作，个人感觉官网的教程是最权威的，耐着性子看完，收获很大，比网上到处看别人理解的更好，毕竟每个人理解的都是自己的，不全面，当然也包括本文，对英文还可以的，还是推荐去官网看训练教程，呵呵

第一部分：训练前的说明

要训练一个新语言（自定义语言或者某种自然语言）对应的traineddata文件，需要产生下列过程文件：

lang.config
lang.unicharset //语料的所有字符
lang.unicharambigs //取代了原来的DangAmbigs文件，手工设置的
lang.inttemp
lang.pffmtable
lang.normproto
lang.punc-dawg
lang.word-dawg
lang.number-dawg
lang.freq-dawg

在这十个文件中，红色标示（共4个，都是训练过程中生成的）的是必须的，其他的文件可选。当这些文件都准备好之后，再使用combine_tessdata进行最后的合并工作，生成lang.traineddata ，这个文件就是最终训练出来语言库，他只是一些输入文件的串联，用一张表记录这与已知文件类型的偏移量。

同时lang.user-words，may still be provided separately.

>>>注释：如果你只是想识别有限的字体，比如一种字体，只需要一个单独的训练页就够了，其它的文件不需要提供，这样反而会大幅度提高准确率，当然了，这要根据你的应用决定。旧版的DangAmbigs现在已经用unicharambigs文件取代。

第二部分：训练过程

1、训练材料的准备和获得

首要要确定要用的所有字符，准备一个包含这样字符的类似Word的文档处理程序，不要使用图片进行训练，此外特别需要注意以下几点：

每个字符至少需要10个样本，对罕见的字符5个样本也可以
对高频字符至少需要20个样本
不要自作聪明地把字符聚集在一起，非字符聚集在一起，而是要保留其原来的样子，这样使得文本行分割程序更容易找到特殊字符的基线。

改进：tesseract3.03添加了自动化处理的工具：

准备一个包含训练字符的txt文件training_text.txt,然后找到你需要识别的字体文件，比如你想识别宋体的字符，就找到宋体的truetype或者opentype文件。然后运行下面的命令来创建一个tif/box文件对。

training/text2image --text=training_text.txt --outputbase=eng.TimesNewRomanBold.exp0 --font='Times New Roman Bold'

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Tesseract3.02训练生成新的识别语言库的详细步骤的相关文章

如何查找 Tesseract OCR 配置文件中支持的参数

我想知道Tesseract OCR使用的配置文件接受哪些参数如何编写配置文件等我在上找不到任何关于此的文档他们的网站 https code google com p tesseract ocr 如何确定支持哪些参数及其含义 Tesse
友思特分享 | CamSim相机模拟器：极大加速图像处理开发与验证过程

来源友思特机器视觉与光电友思特分享 CamSim相机模拟器极大加速图像处理开发与验证过程原文链接 https mp weixin qq com s IED7Y6R8WE4HmnTiRY8lvg 欢迎关注虹科为您提供最新资讯随着
友思特分享 | CamSim相机模拟器：极大加速图像处理开发与验证过程

来源友思特机器视觉与光电友思特分享 CamSim相机模拟器极大加速图像处理开发与验证过程原文链接 https mp weixin qq com s IED7Y6R8WE4HmnTiRY8lvg 欢迎关注虹科为您提供最新资讯随着
图像分割-Grabcut法

版权声明本文为博主原创文章转载请在显著位置标明本文出处以及作者网名未经作者允许不得用于商业目的本文的C 版本请访问图像分割 Grabcut法 C CSDN博客 GrabCut是一种基于图像分割的技术它可以用于将图像中的前景和背景
配置：错误：leptonica 库丢失（在 MinGW 上构建 tesseract-ocr-3.01 时）

运行配置时失败 checking for leptonica yes checking for pixCreate in llept no configure error leptonica library missing 但我已经构建了l
模型训练 -- 数据集的获取（如何筛选想要数据）

目录一前言二数据平台三数据处理 1 MaixHub平台使用 2 ZIP格式整理与上传平台 3 数据处理使用平台删除标注四参考一前言对于图像数据集的获取一直是一个麻烦点自己不想去标注数据太繁琐了所以我分享出一
如何将 Tesseract OCR 库集成到 C++ 程序中

我正在尝试使用Tesseract OCR 库 https code google com p tesseract ocr 为了创建一个程序来读取电梯楼层号码的图片我还没有找到任何关于如何将 Tesseract 库包含到 C 文件中的示例
【图像融合】基于联合双边滤波和局部梯度能量的多模态医学图像融合研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码图像文章
【图像融合】基于联合双边滤波和局部梯度能量的多模态医学图像融合研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码图像文章
作物叶片病害识别系统

介绍由于植物疾病的检测在农业领域中起着重要作用因为植物疾病是相当自然的现象如果在这个领域不采取适当的护理措施就会对植物产生严重影响进而影响相关产品的质量数量或产量植物疾病会引起疾病的周期性爆发导致大规模死亡这些问题需要在初
当我使用 pytesser 运行 tesseract 时，如何隐藏控制台窗口

我是Python新手我正在从事 OCR 项目我在 Windows 7 上使用 Python 2 7 12 我已在路径 C Program Files x86 Tesseract OCR 中安装了 tesseract 我在这里找到了 py
Android OCR 仅使用流行的 tessercat fork tess-two 检测数字

我正在使用流行的 OCR tessercat fork for android tess twohttps github com rmtheis tess two https github com rmtheis tess two 我整合了
JAVA Tess4j doOCR() 不工作，异常“无效内存访问”

我正在 eclipse 中从事动态 Web 项目我制作了一个 TesseractOCR 类其中包含 public class TesseractOCR public TesseractOCR public String doOCR St
通过 pytesseract 和 PIL 提高文本识别的准确性

所以我试图从图像中提取文本由于图像的质量和尺寸不好因此给出的结果不准确我尝试了一些 PIL 的增强功能和其他功能但这只会恶化图像质量有人可以建议对图像进行一些增强以获得更好的结果一些图像示例在提供的图像示例中文本的视觉质量非
tess4j 与 Spring mvc

我已经尝试将 tess4j 作为独立的 java 程序并且它可以正常工作并给出文本输出现在我正在尝试创建一个 spring mvc web 项目在 pom 中添加 tess4j 的依赖项并且我已在我的项目中添加了 tess4j 源
pytesseract找不到指定的文件

我的代码很简单如下所示 import pytesseract from PIL import Image img Image open C temp foo jpg img load i pytesseract image to stri
无法在 Mac 上安装 Tesseract-OCR

我正在尝试使用 pytesseract 在 python 2 7 14 中制作 OCR 程序当我运行我的代码时 from PIL import Image import pytesseract print pytesseract imag
使用背景校正图像 (Python)

我正在开发一个项目对标签上的文本进行 OCR 操作我的工作是对图像进行倾斜校正使其可以用超正方体读取 I have been using this approach https www pyimagesearch com 2017 0
C# - 无法找到 x64 平台的库“leptonica-1.80.0.dll”

我正在使用 Tesseract 5 2 0 创建一个控制台应用程序下面是我的代码 System Drawing Bitmap img new System Drawing Bitmap convertedFile TesseractEng
如何将 Tesseract 导入 Angular2 (TypeScript)

我正在尝试将 Tesseract 导入 Angular2 TypeScript 我可以看到它保存到 node modules 文件夹中但是在使用时 import Tesseract from types tesseract js it s

随机推荐

JavaScript去除数组对象中多余字段，提取对象数组中某些的属性组成新的对象数组。

对象数组中每个对象包含很多属性批量操作只需要要用到一两个属性可以提取原数组中的属性组成一个新的对象数组 const data classtypecode 新人对象 NST suoxie classtypename null trains
一般函数指针和类的成员函数指针

一般函数指针和类的成员函数指针转载请注明原文网址 http www cnblogs com xianyunhe archive 2011 11 26 2264709 html 函数指针是通过指向函数的指针间接调用函数函数指针可以实现对参
如何利用Java完成在数组中插入数值并且排序（从大到小）

首先要对数据组进行扩容然后定义新的数据组将旧数据组的值重新赋值最后开始插入数值数组插入值前提数组本身有序插入要保证不会越界步骤 1 从后向前遍历 2 每个值要与插入的值进行比较不符合顺序的后移 3 符合顺序的要在后方插入
AD之PCB中元器件旋转45度后两元器件无法靠得很近

最近笔者因为在画一块圆形PCB板所以为了节省PCB空间有时需要将元器件倾斜放置在这时就产生了一个问题问题情况及解决办法记录如下问题描述首先是正常竖直放置时两元器件可以放置得很近这没有问题然后将两元器件同时选中并旋转45度
软件工程基础知识--需求分析

软件需求在进行需求获取之前首先要明确需要获取什么也就是需求包含哪些内容软件需求是指用户对目标软件系统在功能行为性能设计约束等方面的期望通常这些需求包括功能需求性能需求用户或人的因素环境需求界面需求文档需求数据需
Numpy 数组切片

一列表切片一维数组 1 1 切片原理列表切片是从原始列表中提取列表的一部分的过程在列表切片中我们将根据所需内容如从何处开始结束以及增量进行切片剪切列表 Python中符合序列的有序序列都支持切片 slice 例如列表字符
嵌入式成长手册——初级嵌入式开发工程师技术栈
【python爬虫】爬虫程序模板(面向对象)

爬虫代码模板程序结构 class xxxSpider object def init self 定义常用变量比如url或计数变量等 def get html self 获取响应内容函数使用随机User Agent def parse
了解 HTTP3.0 吗？简要说一下 HTTP 的一个发展历程？

码字不易有帮助的同学希望能关注一下我的微信公众号 Code程序人生感谢代码自用自取一 HTTP 3 0 HTTP3 0 也称作HTTP over QUIC HTTP3 0的核心是QUIC 读音quick 协议由Google在 20
埋点数据

原文源自 http www woshipm com pmd 751876 html 本文作者将从一个埋点系统设计者的角度通俗系统地讲解埋点的全过程涉及到埋点基础知识埋点作用埋点方法埋点数据流程埋点应用埋点管理等信息埋点是什么
STM32之中断与事件---中断与事件的区别

转自http blog csdn net flydream0 article details 8208463
docker添加新的环境变量_关于docker：在Dockerfile中，如何更新PATH环境变量？

我有一个从源代码下载和构建GTK的dockerfile 但以下行没有更新我的图像的环境变量 RUN PATH opt gtk bin PATH RUN export PATH 我读到我应该使用ENV来设置环境值但以下指令似乎也不起作用 E
conda的安装与使用

conda的安装与使用一 conda可以干嘛官方介绍 Anaconda 是一个包含数据科学常用包的 Python 发行版本它基于 conda 一个包和环境管理器衍生而来你将使用 conda 创建环境以便分隔使用不同 Python
苏神文章解析（6篇）

苏神文章解析文章目录苏神文章解析 1 浅谈Transformer的初始化参数化与标准化 1 1采样分布截尾正态分布 1 2 正交初始化 Xavier初始化 1 3 直接标准化 1 4 NTK参数化 1 5 残差连接 2 模型参数的初
图像边缘算法——计算图像边缘（OpenCV)

目录一算法描述二计算欧氏距离的Python代码三完整的代码四结果一算法描述算法的基本原理是将当前像素与邻接的下部和右部进行比较如果相似则将当前像素设置为白色否则设置为黑色如何判定像素相似呢应用欧式距离算法
吐血整理！Python程序员常见的几种变现方式！

今天聊一个特俗但是大家都想的事情那就是赚钱这件事先说为什么这个事情特俗因为其实我发现我身边大部分程序员不爱谈钱或者羞于谈钱加上程序员工资普遍比较高所以早期都没啥压力但是随着年龄增大薪资的涨薪幅度放缓问题逐渐就暴露出来
n个人围成一圈报数3 python

n int input count 0 a list range 1 n 1 while len a gt 1 b a for i in range len a count 1 if count 3 0 a remove b i print
不能使用clr编译c文件怎么强制用clr_一名合格的 C/C++ 开发者拥有这些能力，你就可以去面试了！...

首先你需要一个显得十分有经验的发型然后拥有一身程序员的基本装备比如言归正传在大多数开发人员的认知中 C C 是一门非常难学的编程语言很多人知道它的强大但因为难造成的恐惧让很多人放弃在我看来 C C 一旦学成其妙无穷
Hive简介和安装

1 Hive是基于hadoop的数据仓库解决方案由facebook贡献给Apache Hive出现的初衷是让不熟悉编程的数据分析人员也能够使用hadoop处理大数据这是怎么实现的呢 2 我们先来看看Hive提供的接口从下面Hive的架
Tesseract3.02训练生成新的识别语言库的详细步骤

说明本文参考了很多前辈的资料主要是 tesseract OCR3 0语言库训练步骤再结合自己的实践操作个人感觉官网的教程是最权威的耐着性子看完收获很大比网上到处看别人理解的更好毕竟每个人理解的都是自己的不全面当然也包括本

Tesseract3.02训练生成新的识别语言库的详细步骤

Tesseract3.02训练生成新的识别语言库的详细步骤 的相关文章

随机推荐

热门标签

Tesseract3.02训练生成新的识别语言库的详细步骤的相关文章