如何提高图像质量？ [关闭]

2024-06-24

我正在制作一个读取身份证的 OCR。使用 YOLO 获取感兴趣的区域后，我将裁剪后的区域交给 Tesseract 来读取它。由于这些裁剪后的图像非常小且模糊，Tesseract 无法读取它们。当它can阅读它们，它会给出错误的预测。我认为通过提高裁剪图像的图像质量，这些问题都可以得到解决。

One of the cropped images:

我的问题是，我将如何改进这些图像？

@vasilisg 的回答。是一个非常好的解决方案。进一步改进的一种方法是使用形态学开放操作去除剩余的斑点。但是，这仅适用于小于图像中数字线宽的点。另一种选择是使用 openCV 连接组件模块删除少于 N 像素的“孤岛”。例如，您可以执行以下操作：

# External libraries used for
# Image IO
from PIL import Image

# Morphological filtering
from skimage.morphology import opening
from skimage.morphology import disk

# Data handling
import numpy as np

# Connected component filtering
import cv2

black = 0
white = 255
threshold = 160

# Open input image in grayscale mode and get its pixels.
img = Image.open("image.jpg").convert("LA")
pixels = np.array(img)[:,:,0]

# Remove pixels above threshold
pixels[pixels > threshold] = white
pixels[pixels < threshold] = black


# Morphological opening
blobSize = 1 # Select the maximum radius of the blobs you would like to remove
structureElement = disk(blobSize)  # you can define different shapes, here we take a disk shape
# We need to invert the image such that black is background and white foreground to perform the opening
pixels = np.invert(opening(np.invert(pixels), structureElement))


# Create and save new image.
newImg = Image.fromarray(pixels).convert('RGB')
newImg.save("newImage1.PNG")

# Find the connected components (black objects in your image)
# Because the function searches for white connected components on a black background, we need to invert the image
nb_components, output, stats, centroids = cv2.connectedComponentsWithStats(np.invert(pixels), connectivity=8)

# For every connected component in your image, you can obtain the number of pixels from the stats variable in the last
# column. We remove the first entry from sizes, because this is the entry of the background connected component
sizes = stats[1:,-1]
nb_components -= 1

# Define the minimum size (number of pixels) a component should consist of
minimum_size = 100

# Create a new image
newPixels = np.ones(pixels.shape)*255

# Iterate over all components in the image, only keep the components larger than minimum size
for i in range(1, nb_components):
    if sizes[i] > minimum_size:
        newPixels[output == i+1] = 0

# Create and save new image.
newImg = Image.fromarray(newPixels).convert('RGB')
newImg.save("newImage2.PNG")

在此示例中，我执行了开运算和连通分量方法，但是如果使用连通分量方法，通常可以省略开运算。

结果如下：

After thresholding and opening:

After thresholding, opening and connected component filtering:

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何提高图像质量？ [关闭] 的相关文章

查找数据集中的异常值

我有一个 python 脚本它创建服务器正常运行时间和性能数据列表的列表其中每个子列表或行包含特定集群的统计信息例如格式良好的它看起来像这样 Cluster Availability Requests Sec Errors S
使用不带引号的块样式的 Python YAML 转储

如何使用 PyYAML 加载和转储 YAML 以便它尽可能地使用原始样式我有 Python 来加载和转储 YAML 数据例如 import sys import yaml def represent dictorder self dat
Python TypeError：不支持的操作数类型 -：“int”和“function”

我是 Python 初学者正在做一项作业我不断得到TypeError unsupported operand type s for int and function 即使在研究了错误并应用了建议的修复之后我并不是在寻找任何人给我一个解
在 PyCharm 中启用终端模拟

很多人告诉过我和PyCharm 2 7 的 PyCharm 发行说明 https www jetbrains com pycharm whatsnew whatsnew 27 html吹捧那个PyCharm包括完整的终端仿真我认为这是关于
如何在嵌套列表中查找给定元素？

这是我的迭代解决方案 def exists key arg if not arg return False else for element in arg if isinstance element list for i in elemen
从 java 代码运行 Python 脚本

这是我第一次在java中尝试python 我正在尝试从我的代码执行 python 脚本如下所示 Process process Runtime getRuntime exec python C Users username Desktop
如果每个元组中的第二项重复，如何从元组列表中删除元素？

如果每个元组中的第二项重复如何从元组列表中删除元素例如我有一个按第一个元素排序的列表如下所示 alist 0 7897897 this is a foo bar sentence 0 653234 this is a foo bar
映射 2 个数据帧并替换目标数据帧中匹配值的标头

我有一个数据框 df1 SAP Name SAP Class SAP Sec Avi 5 C Rison 6 A Slesh 7 B San 8 C Sud 7 B df2 Name Fi Class Avi 5 Rison 6 Slesh
为什么 scikit-learn SVM.SVC() 非常慢？

我尝试使用SVM分类器来训练大约10万个样本的数据但我发现它非常慢甚至两个小时后也没有任何反应当数据集有大约 1k 个样本时我可以立即得到结果我还尝试了 SGDClassifier 和朴素贝叶斯速度相当快几分钟内就得到了结果
Plotly：如何在堆叠条形图顶部显示值的总和以及各个条形值？

我正在尝试在 Python 中的 Plotly Express 中添加每个堆叠条形顶部的总计以及各个条形值 import plotly express as px df px data medals long fig px bar df x
[Python]比较两个 zip 文件的函数，一个位于 FTP 目录中，另一个位于我的本地计算机上

我在创建比较两个 zip 文件的函数时遇到问题如果它们相同而不仅仅是名称相同这是我的代码示例 def validate zip files self host 192 168 0 1 port 2323 username 123 pa
如何向 Jupyter (ipython) 笔记本自动添加扩展？

我已经安装了扩展 calico document tools 我可以使用以下命令从 Jupyter 笔记本中加载它 javascript IPython load extensions calico document tools 如何为每个
如何在Python中将N毫秒添加到日期时间

我正在设置一个日期时间变量 fulldate datetime datetime strptime date time Y m d H M S f 其中日期和时间是适合日期时间性质的字符串如何将此日期时间增加 N 毫秒 Use timed
基于 Pandas 中特殊字符分隔列中的每个项目进行聚合

我输入的数据如下 Date Investment Type Medium 1 1 2000 Mutual Fund Stocks Fixed Deposit Real Estate Own Online Through Agent 1 2
numpy.polyval() 的反函数

我想知道 np polyval 是否有一个方便的反函数我在其中给出 y 值并求解 x 我知道我可以做到这一点的一种方法是 import numpy as np Set up the question p np array 1 1 10 y
pip 升级到 pip 10.x.x 后解析需求文件的正确方法？

所以今天我确实发现随着发布pip 10 x x the req软件包更改了其目录现在可以在下面找到pip internal req 由于通常的做法是使用parse requirements功能在你的setup py从需求文件中安装所有依赖
Python for 循环前瞻

我有一个 python for 循环其中我需要向前查看一项以查看在处理之前是否需要执行某项操作 for line in file if the start of the next line 0 perform pre processing
如何让 Python 生成器返回 None 而不是 StopIteration？

我使用生成器在列表中执行搜索如下简单示例 gt gt gt a 1 2 3 4 gt gt gt i for i v in enumerate a if v 4 next 3 只是为了稍微说明一下示例与上面的列表相比我使用的列表要长得
用于监视文件夹和更新数据库的 Python 守护进程

这专门用于管理 MP3 文件但它应该可以轻松地适用于任何包含大量文件的目录结构我想找到或编写一个守护程序最好用Python 来监视一个包含许多子文件夹的文件夹这些子文件夹都应该包含X个MP3文件每当添加更新或删除文件时它都应该
tkinter 库 treectrl 转换为 exe 安装程序时出现 cx_freeze 错误

我使用的是 python 版本 3 7 我使用了这个名为 treectrl 的外部库当我运行 py 文件时它工作得很好但是当我使用 cx freeze 转换为 exe 文件时它给了我错误 NomodulleFound 名为 tkint

随机推荐

IntelliJ IDEA 在方面定义的方法上“无法解析方法”

我在用弹簧数据 Neo4j 3 4 2 https github com spring projects spring data neo4j tree 3 4 2 RELEASE 它可选使用 AspectJ 我的 IDE 是 Intel
超时 - 在 jest.setTimeout 指定的 5000 毫秒超时内未调用异步回调

我在使用 jest 进行 api 测试时遇到问题目前的行为是什么 Timeout Async callback was not invoked within the 5000ms timeout specified by jest set
如何更改朱莉娅图中刻度的精度

我是第一次在 julia 中绘图并安装了 Juno IDE 我使用 Plots jl 进行绘图每次绘图时 y 轴抽动都有很多小数我尝试过多个后端例如 GR Plotly PlotlyJS 但没有一个后端改变了我所看到的行为这是我当前
如何调整 CSS 中每个
两行之间的间距？

我有一个这样的文档 This is some text br This is some more text br This is yet some more text 呈现如下 This is some text This is some
如何在本地主机上托管 Office 加载项？

我是网络服务器的新手我在 Windows 10 上安装了 Internet 信息服务 IIS 10 Express 我正在尝试开发 Office 加载项以便将其托管在我使用的同一台计算机上问题是如何在本地 Web 服务器中托管加载项
Tablesorter jquery 插件在 FF 3.6.12 中失败，并显示消息“table.config.parsers[c] 未定义”

OSX 10 6 7 w FF 3 6 12 上使用截至 2011 年 5 月 4 日的最新版本插件 Chrome Safari 和 IE 都运行得很好我也尝试过禁用FireBug 但无济于事这是我正在测试的 HTML
为什么在我的游戏状态下，即使在 2 个服务器中，client.guilds.cache.size 也只显示“0”？

我见过很多遇到麻烦的人client guilds size但我切换到最近建议的client guilds cache size 在我的播放状态下它只说 WATCHING my prefix 0 servers 尝试获取成员计数和频道计数也
GIT Pull 删除了我的提交

在 git pull 之后我已经完成了 git Reset 以在合并之前撤消与提交 ID 的合并不知何故我的整个提交都消失了而且我也无法在历史记录中看到该提交但我有提交 id 在 git show 命令上我可以看到我的更改我如何
ReportViewer 控件 - 高度问题

在我的 asp net 应用程序中我试图打开一个特定的报告我将 ReportViewer 控件设置为宽度 100 和高度 100 现在我希望这意味着该报告将占据整个页面令我惊讶的是事实并非如此在 IE7 中虽然它占据了页面的整个
--add-opens 是否适用于 JPMS 中动态创建的层？

我有一个 JPMS 框架可以动态创建 JPMS 层并向其中添加模块经过一些测试我认为 add opensJVM 参数仅适用于boot layer 我的意思是应用程序启动时创建的层所以问题是 add opens适用于 JPMS 中动
为什么 expo 文件系统在 Jest 中不起作用？

我正在尝试为我的小项目编写一些测试我们使用 expo file system 来允许我们访问 IOS 内部存储这是我对我们的保存功能的测试 import SaveData from app resources SaveData Save
如何访问地图内正确的“this”：ReactJS [重复]

这个问题在这里已经有答案了例如我有一个具有两种绑定方法的反应组件 import React from react class Comments extends React Component constructor props supe
Visual Studio 代码：无法找到 phpcs

我在 Visual Studio Code 中遇到这个问题我已经尝试重新安装 phpcs 扩展但仍然面临这个问题无法找到 phpcs 请加phpcs到您的全局路径或使用 Composer 依赖管理器将其安装到 Visual Studi
从 Html 样式的 TextView 获取文本[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 I have a TextView which contains text with Html attributes like subsc
如何将完整图像完美地放入滑块中？

我是这个 CSS 的新手我的第一个滑块中有 2 个图像实际目标是考虑将其完整图像显示到该滑块中但不幸的是我无法使图像完美地适合滑块因为图像宽度比滑块宽度更大这是该滑块的 CSS 代码 ei slider position rel
MarkLogic 数据中心框架快速入门中心 - 连接到远程实例时出现错误“不支持的身份验证方案：[Basic Realm=public]”

我正在从我的工作站测试 ML DHF Quickstart Hub 并且可以很好地连接到 MarkLogic 的本地实例但是当我创建一个新环境时gradle DEV properties文件并尝试连接到远程 MarkLogic 集群时出现
运行时错误：分配给 nil 映射中的条目

我正在尝试生成一个地图然后将其转换为 yaml 文件如下所示 uid kasi cn Chaithra street fkmp nandan cn Chaithra street fkmp remya cn Chaithra stree
处理 1.15 亿个细胞的最快方法是什么？

我收到了一项工作任务其中我要查找 8 位数字并将其替换为来自 2 列表的相应新值基本上是一个 vlookup 然后用新值替换旧值我面临的挑战是 2 列表有 882k 行我尝试替换的单元格约为 1 2 亿 41 000 行 x 300
如何在 JavaScript 中检查字符串是否包含子字符串数组中的文本？

非常简单在 javascript 中我需要检查字符串是否包含数组中保存的任何子字符串没有任何内置功能可以为您执行此操作您必须为其编写一个函数尽管它可能只是对some数组方法两种方法适合您 Array some method 正则
如何提高图像质量？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我正在制作一个读取身份证的 OCR 使用 YOLO 获取感兴趣的区域后我将裁剪后的区域交给 Tesseract 来读取它由于这些裁

如何提高图像质量？ [关闭]

如何提高图像质量？ [关闭] 的相关文章

随机推荐

热门标签