如何将图像中的字符和单词分割成轮廓

2024-02-27

我有一些轮廓图像，我想对其进行分割，这基本上意味着我想将轮廓图像中的所有字符保存到单独的图像中。但我得到了几张噪声图像以及所需的输出。我想知道如何在不影响所需输出的情况下去除所有噪声图像。

我试图改变价值观w and h，这样我就可以最大限度地减少噪音并仅获取字符作为分段图像。

def imageSegmentation(fldr):
        for file in fldr:
            for f in os.listdir(file):
                im = cv2.imread(file+f)
                #print(f)
                imgray=cv2.cvtColor(im,cv2.COLOR_BGR2GRAY)
                ret, thresh = cv2.threshold(imgray, 127, 255, 0)
                contours, hierarchy = cv2.findContours(thresh, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)
                con_img=cv2.drawContours(im, contours, -1, (0,0,0), 1)
                #cv2.imshow("Contour_Image",con_img)
                #cv2.waitKey(0)
                #cv2.destroyAllWindows()

                newfolder=file+"\\contour\\"+f+"\\"
                os.makedirs(newfolder, exist_ok=True)
                fname=os.path.splitext(f)[0]
                cv2.imwrite((newfolder+fname+".png"),con_img)
                #cv2.imshow("con_img",con_img)
                #cv2.waitKey()
                #cv2.destroyAllWindows()

                newfolder2=file+"\\seg\\"+fname+"\\"
                os.makedirs(newfolder2,exist_ok=True)
                sorted_ctrs = sorted(contours, key=lambda cntr: cv2.boundingRect(cntr)[0])

                for i, cntr in enumerate(sorted_ctrs):
                    # Get bounding box
                    x, y, w, h = cv2.boundingRect(cntr)

                    # Getting ROI
                    roi = im[y:y + h, x:x + w]
                    #roi=~roi

                    if w > 9 and h > 27:
                        cv2.imwrite(newfolder2+"{}.png".format(i), roi)

我想知道如何仅获取正确的字符图像，排除输出文件夹中的噪声图像。我添加了一些输入轮廓图像，我需要将它们分割成单个字符。

由于您的问题并不完全清楚您是想提取单个字符还是整个单词，因此以下是同时执行这两种操作的方法。

个别字符

这里的主要思想是

将图像转换为灰度和高斯模糊
执行精明的边缘检测
查找轮廓
迭代轮廓并使用最小面积进行过滤
获取边界框并提取ROI

Canny 边缘检测使用cv2.Canny()

Now we iterate through contours using cv2.findContours() and filter using cv2.contourArea() then draw bounding boxes

这是其他一些输入图像的结果

import cv2

image = cv2.imread('1.png')
original = image.copy()

gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
blur = cv2.GaussianBlur(gray, (3,3), 0)
canny = cv2.Canny(blur, 120, 255, 1)

cnts = cv2.findContours(canny, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
cnts = cnts[0] if len(cnts) == 2 else cnts[1]

min_area = 100
image_number = 0
for c in cnts:
    area = cv2.contourArea(c)
    if area > min_area:
        x,y,w,h = cv2.boundingRect(c)
        cv2.rectangle(image, (x, y), (x + w, y + h), (36,255,12), 2)
        ROI = original[y:y+h, x:x+w]
        cv2.imwrite("ROI_{}.png".format(image_number), ROI)
        image_number += 1

cv2.imshow('blur', blur)
cv2.imshow('canny', canny)
cv2.imshow('image', image)
cv2.waitKey(0)

整个词

现在如果你想提取整个单词，你必须稍微修改一下策略

将图像转换为灰度和高斯模糊
执行精明的边缘检测
扩张以获得单个轮廓
查找轮廓
迭代轮廓并使用最小面积进行过滤
获取边界框并提取ROI

Canny 边缘检测

使用扩张cv2.dilate()连接轮廓

查找边界框并使用轮廓区域进行过滤

提取的投资回报率

注意：如果您尝试查找整个单词，则可能必须更改最小面积值，因为它取决于您正在分析的图像。

import cv2

image = cv2.imread('1.png')
original = image.copy()

gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
blur = cv2.GaussianBlur(gray, (3,3), 0)
canny = cv2.Canny(blur, 120, 255, 1)
kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (9,9))
dilate = cv2.dilate(canny, kernel, iterations=5)
cnts = cv2.findContours(dilate, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
cnts = cnts[0] if len(cnts) == 2 else cnts[1]

min_area = 5000
image_number = 0
for c in cnts:
    area = cv2.contourArea(c)
    if area > min_area:
        x,y,w,h = cv2.boundingRect(c)
        cv2.rectangle(image, (x, y), (x + w, y + h), (36,255,12), 2)
        ROI = original[y:y+h, x:x+w]
        cv2.imwrite("ROI_{}.png".format(image_number), ROI)
        image_number += 1

cv2.imshow('blur', blur)
cv2.imshow('dilate', dilate)
cv2.imshow('canny', canny)
cv2.imshow('image', image)
cv2.waitKey(0)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

opencv

imageprocessing

contour

imagesegmentation

如何将图像中的字符和单词分割成轮廓的相关文章

Python 子进程（ffmpeg）仅在我按 Ctrl-C 程序时启动？

我正在尝试使用 Cygwin 和 Python 2 7 并行运行一些 ffmpeg 命令这大概是我所拥有的 import subprocess processes set commands ffmpeg i input mp4 outpu
pandas Wide_to_long 后缀参数

我对在 pandas 中使用 Wide to long 时的参数有疑问有一个参数叫suffix我不明白在文档中它说后缀 str 默认 d 捕获所需后缀的正则表达式 d 捕获数字后缀没有数字的后缀可以用否定字符类 D 指定您还可以进
Python GTK + webkit - 在 gtk.main() 之后插入 JavaScript

我在终端中尝试了这个一切正常但是如果我在脚本内运行这个我无法在 gtk main 之后插入 JavaScript import gtk import webkit w gtk Window b webkit WebView w add
以矢量化方式在另一个 DataFrame 中查找包含值子集的行

如何匹配此 DataFrame 中的值source car id lat lon 0 100 10 0 15 0 1 100 12 0 10 0 2 100 09 0 08 0 3 110 23 0 12 0 4 110 18 0 32 0
最小二乘法拟合直线 python 代码

我有一个由 X 和 Y 坐标组成的散点图我想使用直线的最小二乘拟合来获得最佳拟合线直线最小二乘拟合是指如果 x 1 y 1 x n y n 是测量数据对则最佳直线是y A Bx 这是我的Python代码 number of poin
无法使用 BeautifulSoup 和 Requests 抓取下拉菜单

我想抓取百年灵网站上的产品页面以获取各种信息示例页面 https www breitling com gb en watches navitimer b01 chronograph 46 AB0127211C1A1 https www b
使用 pandas 将字符串对象转换为 int/float

import pandas as pd path1 home supertramp Desktop 100 life 180 data csv mydf pd read csv path1 numcigar Never 0 1 5 Ciga
将一维数组转换为下三角矩阵

我想将一维数组转换为较低的零对角矩阵同时保留所有数字我知道numpy tril函数但它用零替换了一些元素我需要扩展矩阵以包含所有原始数字例如 10 20 40 46 33 14 12 46 52 30 59 18 11 22 30
在Python中以交互方式执行多行语句

我是 Python 世界的新手这是我用 Python 编写的第一个程序我来自 R 世界所以这对我来说有点不直观当我执行时 In 15 import math import random random random math sqrt
Python——捕获异常的效率[重复]

这个问题在这里已经有答案了可能的重复 Python 常见问题解答异常有多快 https stackoverflow com questions 8107695 python faq how fast are exceptions 我记得
在 iPython/pandas 中绘制多条线会生成多个图

我试图了解 matplotlib 的状态机模型但在尝试在单个图上绘制多条线时遇到错误据我了解以下代码应该生成包含两行的单个图 import pandas as pd import pandas io data as web aapl
使用 WSGI 在 Windows XAMPP 中设置 Python 路径

我正在 Webfaction 上设置实时服务器的开发版本在本地计算机上的虚拟 Apache 服务器环境运行没有任何错误中运行 Django 应用程序 XP 使用 Python 2 6 运行 XAMPP Lite 我可以提交更改通过 G
Jupyter Notebook 中的深色模式绘图 - Python

我正在使用 Jupyter Notebook 目前正在使用 JupyterThemes 的深色日光主题我注意到我的绘图不是处于黑暗模式并且文本仍然是黑色并且在日光照射的背景上无法读取 JupyterThemes 的自述文件建议在 ipy
如何使用 django-pyodbc (ubuntu 16.04) 配置数据库设置 Django-MSSQL？

我是 Django 新手目前正在尝试使用另一个数据库来保存我的模型即MS SQL 我的数据库部署在docker容器中 903876e64b67 microsoft mssql server linux bin sh c opt mssq
在python中读取PASCAL VOC注释

我在 xml 文件中有注释例如这个它遵循 PASCAL VOC 约定
在 Python 中访问 argparse 的参数值

我正在尝试为我的程序设置一些简单的标志参数但无法弄清楚如何访问它们我有 argparser parser argparse ArgumentParser description Simple PostScript Interpreter
更新 SQLAlchemy 中的特定行

我将 SQLAlchemy 与 python 一起使用我想更新表中等于此查询的特定行 UPDATE User SET name user WHERE id 3 我通过 sql alchemy 编写了这段代码但它不起作用 session
沿轴 0 重复 scipy csr 稀疏矩阵

我想重复 scipy csr 稀疏矩阵的行但是当我尝试调用 numpy 的重复方法时它只是将稀疏矩阵视为对象并且只会将其作为 ndarray 中的对象重复我浏览了文档但找不到任何实用程序来重复 scipy csr 稀疏矩阵的行我
Streamlabs API 405 响应代码

我正在尝试使用Streamlabs API https dev streamlabs com Streamlabs API 使用 Oauth2 来创建应用程序因此首先我将使用我的应用程序的用户发送到一个授权链接其中包含我的应用程序的客
Java/Python 中的快速 IPC/Socket 通信

我的应用程序中需要两个进程 Java 和 Python 进行通信我注意到套接字通信占用了 93 的运行时间为什么通讯这么慢我应该寻找套接字通信的替代方案还是可以使其更快更新我发现了一个简单的修复方法由于某些未知原因缓冲输出流似

随机推荐

如何查找包含 URL 的推文？

是否可以搜索链接到特定 URL 或域更好的推文已经有一个服务可以做到这一点但我不知道如何通过 twitter Api 自己做到这一点 http backtweets com api http backtweets com api 仅
解析 JSON POST 请求 C#

某些服务器发送带有以下信息的 POST 请求 payload uid 900af657a65e amount 50 adjusted amount 25 signature 4dd0f5da77ecaf88628967bbd91d9506
如何在 Mac OS X 上的 Git 中处理文件名中的重音字符转换为 unicode

在我的 Git 存储库中重音文件为 800x600 jpg 但在进行克隆后我无法执行拉取操作因为该文件显示为已修改 git clone done git status On branch master Untracked files
Swift 3 - 如何让计时器在后台工作

我正在尝试制作一个可以使计时器在后台运行的应用程序这是我的代码 let taskManager Timer scheduledTimer timeInterval 10 target self selector selector self
Compojure 路由丢失参数信息

My code defn json response data status status or status 200 headers Content Type application json body json generate str
WMSLayerInfo 未定义 - arcgis 4.13

各位今天刚刚开始使用 arcgis 并尝试从 geoserver 添加 wms 图层我正在使用 javascript api v 4 13 我从这个例子开始 https developers arcgis com javascript
如何设置自定义列表视图项目的高度...？

我有一个自定义列表视图其中包含两个文本视图和按钮我已经自定义了按钮样式在列表视图中每一行都不适合正确显示我的按钮我想更改列表项的高度我怎样才能做到这一点这是我的列表视图
我可以配置expressjs 通过http 提供某些页面，通过https 提供其他页面吗？

根据对这个问题的回答如何配置 nodejs expressjs 通过 https 提供页面服务 https stackoverflow com questions 5120989 how do i configure nodejs exp
解析 getLayoutInflater 时出错（未定义）

当我使用以下代码编译程序时发生错误它说 getLayoutInflater 未定义我该如何解决 final LayoutInflater inflater getLayoutInflater 嗨 Prasanth 你可以试试这个步骤
将数字格式化为价格

我已经看到了一些 jquery 的事情只是想知道是否有一个简单的数字格式化脚本本质上我们想要做的就是格式化客户端仅用于检查字段中输入的数字在页面的其他位置大概是在 div 中显示他们输入的格式化价格所以可以说场 inpu
如何访问生成器提供的 Keras 自定义损失函数中的样本权重？

我有一个生成器函数可以无限循环某些图像目录并输出 3 元组的批次形式 img1 img2 label weight where img1 and img2 are batch size x M x N x 3张量以及label and
是否可以使用 C 中的系统 api 启动终止命令？如果没有其他选择？

我正在使用系统 api 启动命令我可以使用此 apiC C 我传递的命令有时可能会挂起因此我想在一定的超时后终止目前我将其用作 system COMMAND 我想像这样使用它使用独立于系统的 API 运行命令我不想使用 Creat
哪些范围的蓝牙 UUID 可用于供应商定义的配置文件？

我想建立一个简单的蓝牙低功耗使用自定义配置文件的基于应用程序所采用的配置文件服务特征描述符使用 16 位 UUID 如官方网站 http developer bluetooth org gatt profiles Pages Pro
“Request::is()”在 laravel 5.5 上不起作用，在 Blade 中

我正在尝试在活动菜单上设置活动类过去我用的是请求 is 函数为此但在新版本的 laravel 中它说未找到请求类当你正在使用blade您可以使用request https laravel com docs 5 5 helpers
命令“django-admin.py startproject mysite”无法识别

EDIT 我将 django admin py 的路径添加到我的系统路径中 C Users me Downloads Django 1 5 1 django bin 但即使在此之后当我尝试运行 django admin py startp
为什么%运算符有时输出正，有时输出负？

当我意识到一些奇怪的事情时我正在统一编写一个脚本在完成脚本后我在视觉工作室控制台项目中测试了我的实现 class Program static void Main string args Console WriteLine 3 5 1
ReactReducer真的应该是一个纯函数吗？

据说useReducer中使用的reducer函数是纯函数如果我没记错的话它的行为仅取决于它的输入参数因此使用相同的输入参数调用它两次会产生相同的效果从here https stackoverflow com questions 5
使用 Opencv 获取轮廓内的平均颜色

所以我决定开始一起学习Open CV和Python 我的第一个项目是检测相对静止的背景上的移动物体然后检测它们的平均颜色以对它们进行排序至少有 10 个物体需要检测我正在处理彩色视频到目前为止我设法删除背景识别轮廓可以选择获取
ASP.NET 身份二要素不起作用 - Cookie 问题？

背景我一直在使用Identity Sample微软团队提供的项目here http www asp net identity overview features api two factor authentication using sm
如何将图像中的字符和单词分割成轮廓

我有一些轮廓图像我想对其进行分割这基本上意味着我想将轮廓图像中的所有字符保存到单独的图像中但我得到了几张噪声图像以及所需的输出我想知道如何在不影响所需输出的情况下去除所有噪声图像我试图改变价值观w and h 这样我就可以最大限度

如何将图像中的字符和单词分割成轮廓

如何将图像中的字符和单词分割成轮廓 的相关文章

随机推荐

热门标签

如何将图像中的字符和单词分割成轮廓的相关文章