从图像中识别数字

2024-04-25

我正在尝试编写一个应用程序来查找图像内的数字并将它们相加。

如何识别图像中的书写数字？

图像中有很多框，我需要获取左侧的数字并将它们相加得出总数。我怎样才能实现这个目标？

编辑：我对图像进行了 java tesseract ocr，但没有得到任何正确的结果。我该如何训练它？

also

我做了边缘检测我得到了这个：

您很可能需要执行以下操作：

应用霍夫变换 http://en.wikipedia.org/wiki/Hough_transform整个页面上的算法，这应该会产生一系列页面部分。
对于您获得的每个部分，请再次应用。如果当前部分产生 2 个元素，那么您应该处理与上面类似的矩形。
完成后，您可以使用 OCR 提取数值。

在这种情况下，我建议您看一下JavaCV https://github.com/bytedeco/javacv（OpenCV Java Wrapper）它应该允许您处理霍夫变换部分。然后你需要类似的东西Tess4j http://tess4j.sourceforge.net/（Tesseract Java Wrapper）它应该允许您提取您想要的数字。

作为额外说明，为了减少误报数量，您可能需要执行以下操作：

如果您确定某些坐标永远不会包含您想要的数据，请裁剪图像。这将为您提供一个较小的图片供您使用。
将图像更改为灰度可能是明智的做法（假设您正在使用彩色图像）。颜色可能会对 OCR 解析图像的能力产生负面影响。

编辑：根据您的评论，给出如下内容：

+------------------------------+
|                   +---+---+  |
|                   |   |   |  |
|                   +---+---+  |
|                   +---+---+  |
|                   |   |   |  |
|                   +---+---+  |
|                   +---+---+  |
|                   |   |   |  |
|                   +---+---+  |
|                   +---+---+  |
|                   |   |   |  |
|                   +---+---+  |
+------------------------------+

您可以裁剪图像，以便通过裁剪图像来删除没有相关数据的区域（左侧的部分），您将得到如下所示的内容：

+-------------+
|+---+---+    |
||   |   |    | 
|+---+---+    |
|+---+---+    |
||   |   |    |
|+---+---+    |
|+---+---+    |
||   |   |    |
|+---+---+    |
|+---+---+    |
||   |   |    |
|+---+---+    |
+-------------+

这个想法是运行霍夫变换，以便您可以获得包含矩形的页面片段，如下所示：

+---+---+    
|   |   |     
+---+---+

然后，您将再次应用霍夫变换，最终得到两段，然后选择左边的一段。

获得左侧片段后，您将应用 OCR。

You can尝试事先应用 OCR，但充其量，OCR 会识别两个数字值，包括书面值和键入值，从我得到的情况来看，这不是您想要的。

此外，描绘矩形的额外线条可能会使 OCR 偏离轨道，并导致产生不良结果。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

imageprocessing

OCR

Tesseract

houghtransform

从图像中识别数字的相关文章

JPanel透明背景和显示元素[重复]

这个问题在这里已经有答案了我插入一个背景图e 变成 aJPanel但一些界面元素消失了以下 Java Swing 元素不会出现标签标题标签 usuario 标签密码按钮加速器你能否使图像透明或元素不透明 setOpaque f
Java Swing：清除JList而不触发监听器

我的情况如下我有一个 JList 只要在列表中进行选择它就会触发搜索使用 ListSelectionListener 我正在尝试使用以下命令重置列表上的选择list clearSelection 这样做的问题是使用clearSelec
使用多个构造函数创建不可变类

我正在阅读这一页 https docs oracle com javase tutorial essential concurrency imstrat html关于在 Java 中创建不可变类并决定根据页面上概述的规范修改我正在编写的类
使用 Java 编程式 HTML 文档生成

有谁知道如何在 Java 中以编程方式生成 HTMLDocument 对象而不需要在外部生成字符串然后使用 HTMLEditorKit read 来解析它我问的两个原因首先我的 HTML 生成例程需要非常快并且我认为将字符串解析
从 eclipse 运行时 java.io.FileNotFoundException: (没有这样的文件或目录)

我正在写入文件并想要控制台输出 TODO Create a game engine and call the runGame method public static void main String args throws Excepti
业务代表与服务定位器

Business Delegate 和 Service Locator 之间有什么区别两者都负责封装查找和创建机制如果 Business Delegate 使用 Service Locator 来隐藏查找和创建机制那么 Busines
Java 的 QP 求解器 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
Tesseract 是否会忽略扫描文档中的任何非文本区域？

我正在使用 Tesseract 但我不知道它是否忽略任何非文本区域并仅针对文本我是否必须删除任何非文本区域作为预处理步骤以获得更好的输出 Tesseract 有一个非常好的算法来检测文本但它最终会给出误报匹配理想情况下您应该在将图像
JSP 标签+ scriptlet。如何启用脚本？

我有一个使用标签模板的页面我的 web xml 非常基本我只是想在页面中运行一些代码不我对标签或其他替代品不感兴趣我想使用不好的做法 scriptlet 哈哈到目前为止我收到了 HTTP ERROR 500 错误 Script
如何将 mat 转换为 array2d？

我为dlib http dlib net face landmark detection ex cpp html那里的面部地标代码使用 array2d 来获取图像但我喜欢使用 Mat 读取图像并转换为 array2d 因为 dlib 仅支
如何在将数据发送到 Firebase 数据库之前对其进行加密？

我正在使用 Firebase 实时数据库制作聊天应用程序我知道 Firebase 非常安全只要您的规则正确但我自己可以阅读使用我的应用程序的人的所有聊天记录我想阻止这种情况为此我需要一种解密和加密方法我尝试使用凯撒解密但失败了
如何计算文件中单词的长度？爪哇

我正在尝试编写一个代码来计算文件中特定长度的单词数例如 How are you 会打印 Proportion of 3 letter words 100 3 words 我想计算长度为 1 2 3 4 5 6 7 8 9 10 11 12
为什么在尝试使用 Java 连接到 RDS PostgreSQL 数据库时会收到 SocketTimeoutException？

我有一个 Spring 应用程序我试图在 AWS 上托管几天来我一直在努力配置我有一个 EC2 实例并且能够通过 SSH 连接到它我还在 AWS 中设置了 Postgres RDS 数据库但我无法使用 IDE 中的代码连接到它
Scala repl 抛出错误

当我打字时scala在终端上启动 repl 它会抛出此错误 scala gt init error error while loading AnnotatedElement class file usr lib jvm java 8 ora
Android 中的字符串加密

我正在使用代码进行加密和加密它没有给出字符串结果字节数组未转换为字符串我几乎尝试了所有方法将字节数组转换为字符但没有给出结果 public class EncryptionTest extends Activity EditText
Android同步onSensorChanged？

这是我的问题的后续 Android线程可运行性能 https stackoverflow com questions 36395440 android thread runnable performance 我在理解应用程序的同步方法时遇到
日期时间解析异常

解析日期时我的代码中不断出现异常错误日期看起来像这样 Wed May 21 00 00 00 EDT 2008 这是尝试读取它的代码 DateTimeFormatter formatter DateTimeFormatter ofPat
Java 9 中紧凑字符串和压缩字符串的区别

有什么优点紧凑的字符串 http openjdk java net jeps 254JDK9 中的压缩字符串压缩字符串 Java 6 和紧凑字符串 Java 9 都有相同的动机字符串通常实际上是 Latin 1 因此浪费了一半的空间和
如何在Java中跨类共享变量，我尝试了静态不起作用

类 Testclass1 有一个变量有一些执行会改变变量的值现在在同一个包中有类 Testclass2 我将如何访问 Testclass2 中变量的更新值由 Testclass1 更新试过这个没用注意 Testclass1和Tes
如何使用 Spring AOP 建议静态方法？

在执行类的静态方法之前和之后需要完成一些日志记录我尝试使用 Spring AOP 来实现这一点但它不起作用而对于正常方法来说它起作用请帮助我理解如何实现这一点如果可以使用注释来完成那就太好了也许您应该在使用 Spring AO

随机推荐

允许对对象重新排序的算法，同时只需要更新恒定数量的对象位置

我有一大堆对象我希望根据它们的一个属性来保持顺序作为一个例子我们假设一个对象可能看起来像 var myObject id c 1 position 0 有序集合的简单实现如下所示 id c 1 position 0 id c 2 po
将 Azure-AD 与 dotnet core 2 web-api 中的本地用户数据库结合起来

我正在创建一个 net core2 web api 它允许 Azure AD 中的用户使用它该 API 是多租户的因此来自多个 Azure AD 的用户应该能够授权但是也可以为没有企业 Azure AD 帐户的用户创建帐户这些用户
当遵循单一活动设计时，如何隐藏底部栏导航？

我试图仅在几个片段中显示底部栏导航我将其隐藏在大部分片段中我读了官方文件 https developer android com guide navigation navigation ui listen for navigation
加载指示器页面在 XPages 中完全刷新

我的 XPage 之一有很多设计元素根据连接速度页面加载时间超出预期我想创建一个指示器来显示登录用户页面正在加载我将其用于部分刷新效果很好但我无法使其进行完全刷新我一直在寻找解决方案我可以尝试 jquery dojo 或
如何在屏障处正确同步线程

我遇到一个问题我很难判断应该使用哪个同步原语我正在创建 n 个在内存区域上工作的并行线程每个线程都分配给该区域的特定部分并且可以独立于其他线程完成其任务在某些时候我需要收集所有线程的工作结果这是使用屏障的一个很好的例子这就是
从通过单元测试项目调用的类库访问 App.Config 设置

我有以下设置 ASP net 3 5 网站项目具有业务逻辑的 C 类库用于单元测试的 C 类库业务逻辑库完成所有数据库访问它通过访问 System Configuration ConfigurationManager Connect
如何在ubuntu 10.4中使用终端使用phpmyadmin mysql数据库？

任何人都可以帮助我通过终端使用 phpmyadmin mysql 数据库吗我使用的是ubuntu 10 4 我猜这个命令是这样的 opt var usr mysql 我不确定在终端中只需输入 mysql u username p 然后系
Python：返回一个字典的函数，其键是输入参数的名称

可以写一个函数吗f它采用任意混合数据元组 T 1 0 N 20 L 10 args T N L f args or maybe f T N L 并作为输出返回 T 1 0 N 20 L 10 有一个相关问题 https stackoverf
App Engine 服务帐户 (gserviceaccount) 电子邮件会发送到哪里？

在应用程序引擎中 Application Settings 页面列出了一个电子邮件地址 email protected cdn cgi l email protection 如果有人向该地址发送电子邮件我该如何阅读我需要这个地址做什么
执行器失败后 Spark 无法在 HDFS 中找到检查点数据

我从 Kafka 传输数据如下 final JavaPairDStream
Python 代码调用创建 OS 线程的 C 库，最终调用 Python 回调

如果当操作系统分派另一个调用 Python 回调的线程时唯一的 Python 解释器正在执行字节码会发生什么我对这种设计的可靠性的担忧是否正确一般情况下 C库需要调用PyEval InitThreads 在生成任何调用 python
当时间戳不属于索引时，如何按时间戳对数据帧进行切片？

如何使用时间戳来分割我的 pandas 数据帧我打电话时得到以下价格df30m Timestamp Open High Low Close Volume 0 2016 05 01 19 30 00 449 80 450 13 449 80
如何从 apache 中删除日期标头？

我需要最小化 Apache HTTP 响应标头现在我将它们减少如下 HTTP 1 1 200 OK Date Thu 25 Mar 2010 21 57 41 GMT Server Apache Content Type text htm
Android Studio 的最小工作 SpotBugs 设置

如何设置 Android 版 SpotBugs 我尝试遵循官方文档 https spotbugs readthedocs io en latest gradle html和那个梯度插件 https plugins gradle org pl
使用 Objective C 在 ios 中将 jpeg 转换为位图？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我没有找到任何示例或库将 Jpeg 图像转换为 24 位 BITMAP 图像我已经在 android 和 java 中创建了示例但
FTPWebRequest .NET 3.5 与 4

我有一个应用程序可以与 IBM 大型机建立 FTP 连接并且一切都工作正常然后我针对 NET 4 重新编译主机不再接受该文件并给出一条错误消息指出该文件不存在或者我没有该文件的权限这是我用来发送文件的 Ftp FtpWebR
如何从另一个 SoftwareBitmap (UWP) 的区域创建 SoftwareBitmap

创建新的最有效最简单的方法是什么 Windows Graphics Imaging SoftwareBitmap具有区域副本的对象 BitmapBounds例如另一个SoftwareBitmap对象深拷贝适用于 Windows U
React useState，useEffect 中的 setState 不更新数组

我在 SO 上看到过这个问题但我似乎无法弄清楚它为什么存在我正在关注来自的教程here https medium com swlh creating a simple real time chat with net core react
从同名脚本导入Python包

我正在尝试通过将脚本从包目录移动到顶级脚本目录来重新组织我的 Python 项目经过这些更改后我的项目层次结构如下所示 MyProject setup py scripts my package py my package init p
从图像中识别数字

我正在尝试编写一个应用程序来查找图像内的数字并将它们相加如何识别图像中的书写数字图像中有很多框我需要获取左侧的数字并将它们相加得出总数我怎样才能实现这个目标编辑我对图像进行了 java tesseract ocr 但没有得到任何

从图像中识别数字

从图像中识别数字 的相关文章

随机推荐

热门标签

从图像中识别数字的相关文章