使用 Python 和 OpenCV 检测 OCR 中的字间空间

2024-02-19

我是 Python 和 OpenCV 的新手。我目前正在使用 Python 和 OpenCV 进行 OCR 工作不使用超立方体到目前为止，我已经成功检测文本（字符和数字），但在检测单词之间的空格时遇到了问题。例如- 如果图像显示“Hello John”，那么它会检测到 hello john，但无法检测到它们之间的空格，所以我的输出是“你好约翰“它们之间没有任何空格。我提取轮廓的代码是这样的（我已经导入了所有必需的模块，这是提取轮廓的主模块）：

 imgGray = cv2.cvtColor(imgTrainingNumbers, cv2.COLOR_BGR2GRAY)
 imgBlurred = cv2.GaussianBlur(imgGray, (5,5), 0)                        


 imgThresh = cv2.adaptiveThreshold(imgBlurred,                           
                                  255,                                  
                                  cv2.ADAPTIVE_THRESH_GAUSSIAN_C,       
                                  cv2.THRESH_BINARY_INV,                
                                  11,                                   
                                  2)                                    

 cv2.imshow("imgThresh", imgThresh)      

 imgThreshCopy = imgThresh.copy()        

 imgContours, npaContours, npaHierarchy = cv2.findContours(imgThreshCopy,        
                                             cv2.RETR_EXTERNAL,                 
                                             cv2.CHAIN_APPROX_SIMPLE)

之后，我对提取的数字和字符轮廓进行分类。请帮我检测它们之间的空间。预先感谢您，您的回复将非常有帮助。

由于您没有提供任何示例图像，我只是生成了一个简单的图像来测试：

h, w = 100, 600
img = np.zeros((h, w), dtype=np.uint8)
font = cv2.FONT_HERSHEY_SIMPLEX
cv2.putText(img, 'OCR with OpenCV', (30, h-30), font, 2, 255, 2, cv2.LINE_AA)

正如我在评论中提到的，如果你只是dilate https://docs.opencv.org/3.3.0/d9/d61/tutorial_py_morphological_ops.html图像，然后白色区域将会扩大。如果您使用足够大的内核来执行此操作，以便附近的字母合并，但又足够小以防止单独的单词合并，那么您将能够提取每个单词的轮廓，并使用它一次屏蔽一个单词以用于 OCR 目的。

kernel = cv2.getStructuringElement(cv2.MORPH_ELLIPSE, (15, 15))
dilated = cv2.dilate(img, kernel)

要单独获取每个单词的掩码，只需找到这些较大斑点的轮廓即可。您也可以对轮廓进行排序；垂直、水平或两者兼而有之，以便您按照正确的顺序获得单词。因为我只有一行，所以我将在x方向：

contours = cv2.findContours(dilated, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_NONE)[1]
contours = sorted(contours, key=lambda c: min(min(c[:, :, 0])))

for i in range(len(contours)):

    mask = np.zeros((h, w), dtype=np.uint8)

    # i is the contour to draw, -1 means fill the contours
    mask = cv2.drawContours(mask, contours, i, 255, -1)
    masked_img = cv2.bitwise_and(img, img, mask=mask)

    cv2.imshow('Masked single word', masked_img)
    cv2.waitKey()

    # do your OCR here on the masked image

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python27

opencv

使用 Python 和 OpenCV 检测 OCR 中的字间空间的相关文章

如何将 mat 转换为 array2d？

我为dlib http dlib net face landmark detection ex cpp html那里的面部地标代码使用 array2d 来获取图像但我喜欢使用 Mat 读取图像并转换为 array2d 因为 dlib 仅支
AWS Lambda python API 调用方法不返回 JSON - 不可序列化？

我有一个 Lambda 函数它是对 API 的基本 Python GET 调用它在本地运行良好但是当我上传到 Lambda 以及请求库时它不会从 API 调用返回 JSON 响应我只是希望它将整个 JSON 对象返回给调用者我
opencv形态扩张滤波器作为最大滤波器

就像中值滤波器的定义一样我可以将最大滤波器定义为局部窗口例如dst x y max 3x3 局部窗口像素但我在opencv中找不到这样的过滤器最接近的是 dilate 函数然后我使用 dilate 函数的默认配置但结果不正确
Python 脚本在开机时启动

我正在制作一个简单的 python 脚本作为在后台运行的可执行文件运行有没有办法让它在启动时运行我知道我可以将可执行文件添加到启动目录但这需要我根据我的机器对其进行硬编码我希望它也能在其他机器上运行 Windows 和 ubuntu
当我将鼠标移到 Mat 关键字上时，Visual Studio 2017 冻结（OpenCv 3.4.1）

我想在 Visual Studio 2017 中开发 openCv 项目我下载了 opencv 预构建库并进行了必要的设置那是 1 我添加了系统路径 build x64 vc14 bin 2 在 Visual Studio 中的项目属性
在将字符串传递给 int() 之前，如何检查它是否为负数？

我正在尝试编写一些内容来检查字符串是数字还是负数如果它是一个数字正数或负数它将通过 int 传递不幸的是当包含时 isdigit 不会将其识别为数字这是我到目前为止所拥有的 def contestTest Neutral po
计算目录和子目录中的文件夹数量

我有一个脚本可以准确地告诉我一个目录中有多少个文件以及其中的子目录但是我也在研究确定同一目录及其子目录中有多少个文件夹我当前的脚本 import os getpass from os path import join getsize
python 2.7.6 if/elif/else 语句中的 isupper 函数

我需要 str isupper 函数的帮助我试图在 if elif else 语句中使用它程序是这样的 String raw input Please enter a string if String 1 isupper print T
从图像坐标获取对象的世界坐标

I have been following this http docs opencv org modules calib3d doc camera calibration and 3d reconstruction html docume
py2neo 引发完成（自我）错误

使用 py2neo 时我在尝试附加事务时收到以下错误 statement MERGE a Person name actorName n MERGE b Series title actorsFields 3 year actorsFie
使用一次递归调用实现递归

给定一个函数如下 f n f n 1 f n 3 f n 4 f 0 1 f 1 2 f 2 3 f 3 4 我知道使用递归来实现它并在一个函数内进行三个递归调用但我想在函数内仅使用一次递归调用来完成此操作怎样才能做到呢要实现使用
python dicttoxml 多次使用相同的键

我正在尝试做如下所示的 xml
清理 .txt 并计算最常见的单词

我需要 1 从停用词列表中清除 txt 我将其放在单独的 txt中 2 之后我需要统计最常见的 25 个单词这是我为第一部分想到的 usr bin python coding iso 8859 15 import re from coll
如何使用 opencv python 计算乐高积木上的孔数？

我正在开发我的 python 项目我需要计算每个乐高积木组件中有多少个孔我将从输入 json 文件中获取有关需要计算哪个程序集的信息如下所示 img 001 red 0 blue 2 white 1 grey 1 yellow 1 r
pygame：使用 sprite.RenderPlain 绘制精灵组的顺序

我有一个精灵组需要按一定的顺序绘制以便其精灵按应有的方式重叠然而即使使用运算符模块函数 sorted self sprites key attrgetter y x 对组进行排序顺序也是错误的我该如何解决这个问题直截了当地说
iteritems 的优点是什么？

我使用的是 Python 2 7 5 Mac OS X 10 9 3 具有 8GB 内存和 1 7GHz Core i5 我测试了如下的时间消耗 d i i 2 for i in xrange 10 7 3 WARNING it takes
Python守护进程：保持日志记录

我有一个将一些数据记录到磁盘的脚本 logging basicConfig filename davis debug log level logging DEBUG logging basicConfig filename davis er
在Python中如何获取字典的部分视图？

是否有可能获得部分视图dict在Python中类似于pandasdf tail df head 说你有很长一段时间dict 而您只想检查某些元素开头结尾等 dict 就像是 dict head 3 To see the first 3
同时从多个流中捕获、最佳方法以及如何减少 CPU 使用率

我目前正在编写一个应用程序该应用程序将捕获大量 RTSP 流在我的例子中为 12 个并将其显示在 QT 小部件上当我超过大约 6 7 个流时问题就会出现 CPU 使用率激增并且出现明显的卡顿我认为它不是 QT 绘制函数的原因是因
如何使用Python保存“完整的网页”而不仅仅是基本的html

我正在使用以下代码来使用 Python 保存网页 import urllib import sys from bs4 import BeautifulSoup url http www vodafone de privat tarife r

随机推荐

启动Spring Boot应用程序时liquibase的问题

我有一个Spring Boot申请与liquibase 第一次我创建表格没有问题但当我再次启动时我遇到了无法解决的问题这是error Error starting ApplicationContext To display the c
读取外部网页的内容并获取特定元素[重复]

这个问题在这里已经有答案了可能的重复如何用PHP解析和处理HTML https stackoverflow com questions 3577641 how to parse and process html with php 我已经
如何确保我使用的是“服务器”JVM？

Sun 的 JVM 有两种风格 client and server 其中服务器 VM 应针对长时间运行的进程进行优化建议用于服务器应用程序当我跑步时java如果没有参数它会显示使用选项其中包括以下文本 The default VM
减小 EPS 格式的绘图大小

我有一个包含数百个项目的直方图我为其绘制了 Q Q 图这导致 EPS 大小为 2 5 兆字节对于仅包含在出版物中并且不会以 100 倍放大倍率查看的图形来说这太大了 R 中是否有任何选项可以以某种方式输出较小的 EPS 我搜索过文档
无法在任何地方运行 jupyter（终端、anaconda 分发器）Mac os 10.12.6

我在终端中运行 jupyter 时遇到问题运行后终端显示什么 maxim MacBook Pro Maxim jupyter notebook Traceback most recent call last File Library Fr
如何在C#中获取Windows面板控件中的Keypress事件

我想在 C 中的 Windows 面板控件中获取按键事件对我有帮助吗你应该处理面板按键 http msdn microsoft com en us library system windows forms panel keypress
弹簧形式：输入数字

我正在使用 Spring 的 form input 如下
VS 扩展中未处理的异常

我尝试为自定义文件定义创建语法突出显示加载时出现异常我已将 log 参数添加到 devenv 以获取日志 335 ERROR System Exception Duplicate EditorFormatDefinition expor
Python 中 OLS 的 Newey-West 标准错误？

我想要一个系数和与之相关的 Newey West 标准误差我正在寻找可以执行以下 R 代码正在执行的操作的 Python 库理想情况下但任何可行的解决方案都可以 library sandwich library lmtest a lt
为什么我使用 OpenLayers 在两个弹出窗口中获得相同的文本

我正在使用 OpenLLayers 5 我将经度纬度和汽车名称保存在数据库中的数组中我可以显示两个标记我的数组目前只有两个索引每个标记都有一个弹出窗口其中应包含其名称经度纬度例如第一个标记的弹出窗口将汽车 1 作为文本在
使用 FQL 聆听音乐 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在尝试使用 FQL 为用户和用户的朋友获取 music listens 有谁知道获取 music l
rake db:test:prepare 实际上做了什么？

我正在关注 Rails 教程视频但我不明白它是什么db test prepare命令确实如此有人可以提供解释吗上面的 rake db migrate 运行任何挂起的迁移开发环境并更新db schema rb 耙子 db test l
如何将 componentDidMount() 与 React-Redux connect() 混合使用？

这似乎是一个简单的用例但我无法弄清楚我想显示从通过 HTTP 对远程 API 的请求中检索到的项目列表我希望在请求发生时屏幕最初显示空白然后在可用时填充结果所以我想我会有两个组件哑的项目列表组件和包装器演示组件呃以某
无法在分布式模式下运行 Kafka Connect - 尝试创建/查找主题“connect-offsets”时出错

2017 08 31 10 15 20 715 WARN 配置提供了 internal key converter 但不是已知的配置 org apache kafka clients admin AdminClientConfig 231
Google Apps Profiles API：java.lang.NullPointerException：没有身份验证标头信息

public ContactFeed retrieveContacts ContactsService service Credential credential throws Exception URL url new URL https
在 Android TV Leanback 中实现文件对话框

我有一个dirPath String我希望能够将其更改为我为 Android TV 应用程序选择的目录我发现 Leanback 框架类似幻灯片的界面对于更微妙的操作来说有点麻烦但我想尽可能坚持使用它因为我总体上是 Android 和
在 Ionic 应用程序中一起使用 CORS 和 CSRF

我正在开发一个 Android 应用程序使用离子框架 http ionicframework com 基于我开发的 AngularJS 网站Jhipster https jhipster github io 由于我的 Web 应用程序中已
在 Flutter 中更新数据

我刚刚开始学习 Dart 和 Flutter 首先我想开发一个充当服务器的应用程序我们从telnet 所以目前我有以下两个课程 class HomeScreen extends StatefulWidget override Home
'?:'（三元/条件运算符）的结果类型是什么？

为什么第一个条件运算符会产生引用 int x 1 int y 2 x gt y x y 100 然而第二个却没有 int x 1 long y 2 x gt y x y 100 实际上第二个根本无法编译 error lvalue req
使用 Python 和 OpenCV 检测 OCR 中的字间空间

我是 Python 和 OpenCV 的新手我目前正在使用 Python 和 OpenCV 进行 OCR 工作不使用超立方体到目前为止我已经成功检测文本字符和数字但在检测单词之间的空格时遇到了问题例如如果图像显示 Hello J

使用 Python 和 OpenCV 检测 OCR 中的字间空间

使用 Python 和 OpenCV 检测 OCR 中的字间空间 的相关文章

随机推荐

热门标签

使用 Python 和 OpenCV 检测 OCR 中的字间空间的相关文章