字符识别（OCR算法）[关闭]

2024-01-25

我正在开发一个项目，其中我必须开发 OCR 算法（我必须从图像中读取文本，然后将其转换为不同的语言）。所以我的第一个任务是从图像中获取文本。

完成第一个任务的步骤。

从给定源加载任何图像格式（bmp、jpg、png）。然后将图像转换为灰度并使用阈值（Otsu算法）将其二值化。 //已完成（如何从输出图像中去除噪声？？？）

Results

检测图像特征，如分辨率和反转。这样我们最终就可以将其转换为拉直的图像以进行进一步的处理。（完成了图像旋转的代码，但无法检测我们必须旋转图像的图像角度，因此仍在研究角度检测部分）
线路检测和删除。需要此步骤来改进页面布局分析、对下划线文本实现更好的识别质量、检测表格等（决定在末尾完成该部分）
页面布局分析。在此步骤中，我尝试识别图像中存在的文本区域。因此，只有该部分用于识别，而该区域的其余部分被忽略。
检测文本行和单词。这里我们还需要注意不同的字体大小和单词之间的小间距。
字符识别。这是OCR的主要算法；每个字符的图像必须转换为适当的字符代码。有时，该算法会为不确定的图像生成多个字符代码。例如，识别“I”字符的图像可以产生“I”、“|”。 “1”、“l”代码和最终的字符代码将在稍后选择。
将结果保存为选定的输出格式，例如可搜索的 PDF、DOC、RTF、TXT。保存原始页面布局很重要：栏目、字体、颜色、图片、背景等。

所以我在第 6 部分中需要帮助。我已经完成了行检测部分（从包含 n 行的段落中获取 n 个图像），但卡在下一部分中获取单词和字符识别。如果您知道与 OCR 和字符识别部分相关的良好链接，请发布这里。

对于字符识别，我正在考虑使用 asprise（Java 库）http://asprise.com/product/ocr/index.php?lang=java http://asprise.com/product/ocr/index.php?lang=java

检测旋转角度，使用霍夫变换 http://en.wikipedia.org/wiki/Hough_transform.

For 降噪，将任何没有邻居（北、东、南或西）的像素替换为相同颜色（相似的颜色，使用容差阈值），以及邻居的平均值。

搜索垂直白色间隙布局检测。沿着垂直间隙切片。对于每个切片，现在搜索水平间隙并切片。如果切片具有相同（相似）的高度，则处于线水平。否则重复垂直/水平切片，直到只剩下线条。最后一步再次是垂直切片，为您提供单个字符（或在某些情况下为连字）。长而窄或短而宽的切片都是线。

将字符切片与字符库进行比较。如果性能不是主要考虑的问题，请尝试在不同的字体库中查找字符，直到可以识别所使用的字体。然后坚持使用该字体字符识别.

在原始图像中，将每个字符替换为背景颜色，背景颜色是通过为字符的每个像素插入不属于字符的像素来确定的。这给你背景图，如果有的话。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

OCR

字符识别（OCR算法）[关闭] 的相关文章

Tesseract 虚假空间识别

我正在使用 tesseract 来识别序列号这是可以接受的存在常见问题例如错误识别零和 O 6 和 5 或 M 和 H 除此之外这个超正方体还向识别的单词添加了空格而图像中没有空格下图被识别为 HI 3H 这张图片的结果是 FB
训练 Tesseract 特定单词 - 可能吗？

我想使用 Tesseract 从文档中提取大约 10 20 个关键字该文档将包含所有英文字符单词我感兴趣的是年龄 23 之类的东西这里 Age 是我感兴趣的关键字也想提取 23 它的值我想到的第一个方法是将整个页面提取为文本
使用 PHP 识别数字

我正在尝试从图片中提取一些范围从 1 到 99 的数字我已经尝试了几种使用 PHP 的 OCR 方法但最终我的脚本会失败因为数字偶尔会向左或向右旋转 5 这使得图片无法识别我现在已经安装了 Ocropushttp code goog
如何将 Tesseract OCR 库集成到 C++ 程序中

我正在尝试使用Tesseract OCR 库 https code google com p tesseract ocr 为了创建一个程序来读取电梯楼层号码的图片我还没有找到任何关于如何将 Tesseract 库包含到 C 文件中的示例
识别图像中的 visio 形状

在提供 SCADA 解决方案时我们经常会获得结构化控制图如下所示的 visio 类似流程图中指定的最终用户规范这些规范通常以 PDF 格式或图像形式提交为了在 C 中访问这些我希望使用 OpenCV 库之一我正在研究模板识别
通过 pytesseract 和 PIL 提高文本识别的准确性

所以我试图从图像中提取文本由于图像的质量和尺寸不好因此给出的结果不准确我尝试了一些 PIL 的增强功能和其他功能但这只会恶化图像质量有人可以建议对图像进行一些增强以获得更好的结果一些图像示例在提供的图像示例中文本的视觉质量非
Pytesseract 对于实时 OCR 来说非常慢，有什么方法可以优化我的代码吗？

我正在尝试使用 python 创建实时 OCRmss and pytesseract 到目前为止我已经能够捕获整个屏幕其 FPS 稳定为 30 如果我想捕获大约 500x500 的较小区域我已经能够获得 100 FPS 然而一旦我包
使用贝叶斯类进行数字识别

我需要编写一个仅用于数字的 OCR 程序我将使用 MNIST 数据集问题是我不知道从哪里开始有很多论文并没有真正解释算法我对模式识别真的了解不多所以我有几个问题 Q1 在哪里可以找到算法或教程 Q2 如何对数字进行分类我不需要
unicharset_extractor：找不到命令

我想使用超正方体创建新的列车数据因此请按照以下网站中提到的步骤进行操作 https blog cedric ws how to train tesseract 301 https blog cedric ws how to train
使用 OpenCV 对 Tesseract OCR 进行图像预处理

我正在尝试开发一个应用程序它使用 Tesseract 来识别手机摄像头拍摄的文档中的文本我使用 OpenCV 来预处理图像以实现更好的识别应用高斯模糊和阈值方法进行二值化但结果非常糟糕 Here https s6 postimg c
让 tesseract 只识别数字

我正在尝试改进我制作的 OCR 程序来读取我正在使用的某个图像的布局现在我希望我的 OCR 程序只能识别数字 0 9 我尝试遵循问题的解决方案限制 tesseract 正在寻找的字符 https stackoverflow com q
pytesseract 错误 Windows 错误 [错误 2]

您好我正在尝试使用 python 库 pytesseract 从图像中提取文本请查找代码 from PIL import Image from pytesseract import image to string print image
OCR 解析获取复选框或单选按钮值

I need to parse OCR image file and get all texts and checkbox values How to get Checkbox or Radio Button value from OCR
裁剪图像后，如何找到新的边界框坐标？

这是我得到的收据图像我使用 matplotlib 绘制了它 x1 y1 x2 y2 x3 y3 x4 y4 bbox coords 650 850 1040 850 1040 930 650 930 image cv2 imread IM
收据褪色部分可以恢复吗？

我有一些包含一些扫描收据的文件我需要使用 OCR 从中提取文本由于收据上打印的文字在一段时间后会褪色导致收据上的某些文字不清晰影响OCR结果褪色单词的一些示例有什么方法可以恢复褪色的部分以便提高 OCR 结果吗我在OpenC
用Python识别图像

我对 OCR 识别和 Python 都有点陌生我想要实现的是从 Python 脚本运行 Tesseract 以识别 tif 中的某些特定数字我以为我可以为 Tesseract 做一些培训但我在 Google 和 SO 上没有找到任何
提高 pytesseract 从图像中正确识别文本的能力

我正在尝试使用读取验证码pytesseract模块大多数时候它都能提供准确的文本但并非总是如此这是读取图像操作图像以及从图像中提取文本的代码 import cv2 import numpy as np import pytesser
Tess4j - Pdf 到 Tiff 到 tesseract - “警告：分辨率 0 dpi 无效。使用 70 代替。”

我正在使用 tess4j net sourceforge tess4j tess4j 4 4 0 并尝试对 pdf 文件进行 OCR 因此据我了解我必须首先将 pdf 转换为 tiff 或 png 其中有任何建议吗我这样做是这样的 t
Tess4j 问题 java.lang.UnsatisfiedLinkError

我正在尝试解决 Tess4J 安装问题 1 我在 WEB INF win32 x86 中创建了一个文件夹2 我把 libtesseract302 dll 和 liblept168 dll 放在那里然后将其添加到 java 构建路径中的源
Tesseract OCR - 手写字体

我正在尝试使用Tesseract OCR http code google com p tesseract ocr 检测其中包含纯文本的图像文本但这些文本具有名为的手写字体Journal Example 结果不是最好的千里马尺寸宽

随机推荐

Delphi 编程中的枚举、常量、类常量

我在 ClientDataSet 中有一个整数字段我需要与一些值进行比较如下所示我可以使用常量 const mvValue1 1 mvValue2 2 if ClientDataSet Field AsInteger mvValue1
为什么空行中的缩进不好？

我知道的每个自由开源项目都有针对代码中尾随空格的规则但我认为在下一行继续当前的缩进是很自然的 int main int a 42 return a 但 git 无论如何都会抛出警告所以我的问题是为什么这些选项卡inside目前的缩进不
GACUtil“程序集已成功添加到缓存”但“项目数 = 0”

为什么当我跑步时 gacutil i myAssembly dll 我得到 Assembly successfully added to the cache 但当我跑步时 gacutil l myAssembly dll I get Nu
Google 地图 KML：8 位十六进制代码

我是 Google 地图和 KML 的新手我的 KML 文件在地图上渲染多边形但我想更改多边形上的填充颜色和多边形的线条颜色问题是我无法以 8 位十六进制创建颜色每当我认为我的颜色正确时它的渲染效果就不像我想象的那样我似乎无法在
如何在 SQL 中取消透视？ (SAP HANA)（列到行）

我需要取消透视 SAP HANA 中的一些数据我设置了一个示例表来尝试一下但我仍然一无所获实际的表包含 1000 个 ID 和大约 50 个列但我想对许多表执行此操作因此虽然我可以指定 FieldNames 原始列但如果有一个自
Office.js 选择文本并将其替换为 ContentControl

我使用 Office js 有以下用例搜索一些文本body search 找到文本后可以多次出现迭代它们并将它们替换为具有不同内容的 ContentControl 搜索部分很简单但我不确定第二部分将 ContentControl
在scala中将两个元组组合成一个新的更大元组的干净方法？

假设我有以下元组 scala gt val t1 Tuple2 abcd efg t1 java lang String java lang String abcd efg scala gt val t2 Tuple2 1234 lmnop
ios - 资源文件大小超过 2GB 的企业应用程序

我正在开发一个用于企业分发的 ipad 应用程序仅由我公司人员使用它有很多视频文件图像 pdf等制作应用程序后 ipa的大小约为2 2 GB 我想知道该应用程序是否可以在所有 iPad 上有效运行或者这样做会很麻烦吗期待一些不会
无法在 keras 中的 BERT 之上添加 CRF 层以进行 NER

我在训练 NER 的 BERT CRF 模型时遇到了一个未知问题我使用 keras contrib 作为 CRF 模型这是导入的库 pip install transformers pip install git https www g
Flutter：如何在不复制整个文件的情况下调整/覆盖 Flutter 核心代码的属性？

这个问题与以下 StackOverflow 问题相关底部工作表的初始高度为屏幕的一半如果滚动则高度会增加到全屏 https stackoverflow com questions 52028107 bottom sheet with
nodejs - 如何比较 bcrypt 的两个哈希密码

您好在我搜索解决方案后我需要一些关于这个问题的帮助但我还没有找到我想将2个哈希密码与相同密码的bcrypt进行比较我该怎么做例如我有这 2 个哈希密码它们来自 bcrypt 中的相同密码 var password E Js
有没有办法保证Java中的接口扩展类？

假设我有以下情况 public abstract class Vehicle public void turnOn public interface Flier public void fly 有没有一种方法可以保证任何实现的类Flier还
如何将文件从旧文件夹结构移动到新文件夹结构？

我想修改现有的文件夹结构我有一个按以下方式组织的文件树 Client Name State Province City Order Number 但我对其进行了修改在订单号之前添加一个地址并用连字符分隔如下所示 Client Nam
变址寻址方式和隐式寻址方式

索引寻址模式通常用于访问数组因为数组是连续存储的我们有一个索引寄存器它在每次迭代中都会递增当添加到基地址时它会给出数组元素地址我不明白这种寻址模式的实际需要为什么我们不能通过直接寻址来做到这一点我们有了基地址每次访问的时候
document.createElement("script") 同步

是否可以调用 js同步文件然后立即使用
XmlAttribute/XmlText 不能用于编码复杂类型

我在下面的类中收到以下错误无法序列化 DataObjects Ingredient 类型的成员 Ingredient XmlAttribute XmlText 不能用于对复杂类型进行编码有什么想法吗 DataContract Seria
Exchange Web 服务创建会议请求工作示例

是否有关于如何使用 C 使用 EWS for Exchange 2007 创建会议请求的工作示例需要哪些属性我添加了一个 Web 服务引用并且可以连接以创建和发送各种项目但不断收到错误设置操作对属性无效关于响应消息它从来没有说
在 Visual Studio 2008 中更改字体大小和样式

Visual Studio 2008 中更改字体大小和字体类型的设置在哪里使用菜单Tools gt Options gt 内部环境 gt 字体和颜色
iFrame：如何使用 javascript 将服务器响应（HTML）直接显示到 iFrame 中？

我收到一个简单的服务器响应它是一个 html 文件我想在 iFrame 中显示相同的内容而不将该文件保存到我的工作区或计算机中我正在进行 ajax 调用如下所示 Ext Ajax request url url method PO
字符识别（OCR算法）[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我正在开发一个项目其中我必须开发 OCR 算法我必须从图像中读取文本然后将其转换为不同的语言所以我的第一个任务是从图像中获取文

字符识别（OCR算法）[关闭]

字符识别（OCR算法）[关闭] 的相关文章

随机推荐

热门标签