提高 pytesseract 从图像中正确识别文本的能力

2024-05-08

我正在尝试使用读取验证码pytesseract模块。大多数时候它都能提供准确的文本，但并非总是如此。

这是读取图像、操作图像以及从图像中提取文本的代码。

import cv2
import numpy as np
import pytesseract

def read_captcha():
    # opencv loads the image in BGR, convert it to RGB
    img = cv2.cvtColor(cv2.imread('captcha.png'), cv2.COLOR_BGR2RGB)

    lower_white = np.array([200, 200, 200], dtype=np.uint8)
    upper_white = np.array([255, 255, 255], dtype=np.uint8)

    mask = cv2.inRange(img, lower_white, upper_white)  # could also use threshold
    mask = cv2.morphologyEx(mask, cv2.MORPH_OPEN, cv2.getStructuringElement(cv2.MORPH_ELLIPSE, (3, 3)))  # "erase" the small white points in the resulting mask
    mask = cv2.bitwise_not(mask)  # invert mask

    # load background (could be an image too)
    bk = np.full(img.shape, 255, dtype=np.uint8)  # white bk

    # get masked foreground
    fg_masked = cv2.bitwise_and(img, img, mask=mask)

    # get masked background, mask must be inverted 
    mask = cv2.bitwise_not(mask)
    bk_masked = cv2.bitwise_and(bk, bk, mask=mask)

    # combine masked foreground and masked background 
    final = cv2.bitwise_or(fg_masked, bk_masked)
    mask = cv2.bitwise_not(mask)  # revert mask to original

    # resize the image
    img = cv2.resize(mask,(0,0),fx=3,fy=3)
    cv2.imwrite('ocr.png', img)

    text = pytesseract.image_to_string(cv2.imread('ocr.png'), lang='eng')

    return text

对于图像的处理，我得到了帮助堆栈溢出 https://stackoverflow.com/questions/29810128/opencv-python-set-background-colour#answer-38516242 post.

这是原始的验证码图像：

这张图片是在处理后生成的：

但是，通过使用pytesseract，我收到文本：AX#7rL.

谁能指导我如何将成功率提高到100%？

由于生成的图像中存在小孔，因此形态转换，特别是cv2.MORPH_CLOSE，要关闭孔并平滑图像，应该在这里工作

临界点 https://docs.opencv.org/3.3.0/d7/d4d/tutorial_py_thresholding.html获得二值图像（黑白）

Perform 形态学运算 https://docs.opencv.org/3.0-beta/doc/py_tutorials/py_imgproc/py_morphological_ops/py_morphological_ops.html关闭前景中的小孔

将图像反转即可得到结果

4X#7rL

潜在的cv2.GaussianBlur()在插入超正方体之前也会有帮助

import cv2
import pytesseract

# Path for Windows
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"

# Read in image as grayscale
image = cv2.imread('1.png',0)
# Threshold to obtain binary image
thresh = cv2.threshold(image, 220, 255, cv2.THRESH_BINARY)[1]

# Create custom kernel
kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (3,3))
# Perform closing (dilation followed by erosion)
close = cv2.morphologyEx(thresh, cv2.MORPH_CLOSE, kernel)

# Invert image to use for Tesseract
result = 255 - close
cv2.imshow('thresh', thresh)
cv2.imshow('close', close)
cv2.imshow('result', result)

# Throw image into tesseract
print(pytesseract.image_to_string(result))
cv2.waitKey()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

opencv

imageprocessing

OCR

pythontesseract

提高 pytesseract 从图像中正确识别文本的能力的相关文章

Python有条件求解时滞微分方程

我在用dde23 of pydelay包来求解延迟微分方程我的问题如何有条件地编写方程例如目标方程有两个选项 when x gt 1 dx dt 0 25 x t tau 1 0 pow x t tau 10 0 0 1 x othe
希伯来语中的稀疏句子标记化错误

尝试对希伯来语使用稀疏句子标记 import spacy nlp spacy load he doc nlp text sents list doc sents I get Warning no model found for he Onl
Jupyter Notebooks 不显示进度条

我正在尝试在 Jupyter 笔记本中显示进度条这是一台新电脑我通常做的事情似乎不起作用 from tqdm import tqdm notebook example iter 1 2 3 4 5 for rec in tqdm not
如何使用显式引用转储 YAML？

递归引用非常适合ruamel yaml or pyyaml ruamel yaml dump ruamel yaml load A A id001 id001 然而它显然不适用于普通引用 ruamel yaml dump ruamel
Android：将图像裁剪为特定尺寸

我的目的是让用户从图库中选择一张图像然后进行裁剪活动但是我需要将定义裁剪蒙版的矩形锁定到某个尺寸然后用户只需重新定位它即可显示图像的一部分关于如何做到这一点有什么想法吗 Thanks T Intent intent new Int
如何在 PyCharm 4.5.2 中使用 PyPy 作为标准/默认解释器？

如何在 PyCharm 4 5 2 中使用 PyPy 作为标准默认解释器一切都在 Ubunutu 14 10 下运行并且 pypy 已经安装您可以在项目的设置下进行配置这个官方文档直接涵盖了 https www jetbrains
更新 Sqlalchemy 中的多个列

我有一个在 Flask 上运行的应用程序并使用 sqlalchemy 与数据库交互我想用用户指定的值更新表的列我正在使用的查询是 def update table value1 value2 value3 query update T
numpy 使用 datetime64 进行数字化

我似乎无法让 numpy digitize 与 datetime64 一起使用 date bins np array np datetime64 datetime datetime 2014 n 1 s for n in range 1 1
登录网站并使用 python 请求下载文件

我有一个带有 HTML 表单的网站登录后它会将我带到 start php 站点然后将我重定向到overview php 我想从该服务器下载文件当我单击 ZIP 文件的下载链接时链接后面的地址是 getimage php path
更改 python tkinter canvas 中的线坐标

我画了一条线tkinter Canvas现在我想移动一端这可能吗例如和itemconfig import tkinter tk tkinter Tk canvas tkinter Canvas tk canvas pack line c
Python Fabric - 未找到主机。请指定用于连接的（单个）主机字符串：

如何获取找不到主机请指定用于连接的单个主机字符串面料如何解决 def bootstrap host ec2 54 xxx xxx xxx compute 1 amazonaws com env hosts host env use
为什么我无法在 Mac OS X Terminal.app 上的 Python 解释器中显示 unicode 字符？

如果我尝试粘贴 unicode 字符例如中间的点在我的 python 解释器中它什么也不做我在 Mac OS X 上使用 Terminal app 当我只是在 bash 中时我没有遇到任何问题但在解释器中 python Pytho
django-admin.py makemessages 不起作用

我正在尝试翻译一个字符串 load i18n trans Well Hello there how are you to Hola amigo que tal 我的 settings py 文件有这样的内容 LOCALE PATHS os
如何使用 paramiko 查看（日志）文件传输进度？

我正在使用 Paramiko 的 SFTPClient 在主机之间传输文件我希望我的脚本打印文件传输进度类似于使用 scp 看到的输出 scp my file user host user host password my file 1
PyTorch DataLoader 对并行运行的批次使用相同的随机种子

有一个bug https tanelp github io posts a bug that plagues thousands of open source ml projects 在 PyTorch Numpy 中当并行加载批次时Da
Python 类型安全吗？

根据维基百科 https en wikipedia org wiki Type system Type safety and memory safety 如果一种语言不允许违反类型系统规则的操作或转换计算机科学家就认为该语言是类型安全的
Python]将两个文本文件合并为一个（逐行）[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我是蟒蛇新手我想做的是将文件 a 和文件 b 逐行合并到一个文件中例如 text file a a n b n c text fi
是否可以将 pd.Series 分配给无序 pd.DataFrame 中的列而不映射到索引（即不重新排序值）？

在 Pandas 中创建或分配新列时我发现了一些意外的行为当我对 pd DataFrame 进行过滤或排序从而混合索引然后从 pd Series 创建新列时 Pandas 会重新排序该系列以映射到 DataFrame 索引例如 d
如何循环遍历字典列表并打印特定键的值？

我是 Python 新手有一个问题我知道这是一个非常简单的问题运行Python 3 4 我有一个需要迭代并提取特定信息的列表以下是列表称为部分的示例已截断数千个项目 state DEAD id phwl type name
使用 urllib 编码时保持 url 参数有序

我正在尝试用 python 模拟 get 请求我有一个参数字典并使用 urllib urlencode 对它们进行 urlencode 我注意到虽然字典的形式是 k1 v1 k2 v2 k3 v3 urlencoding 后参数的顺序切

随机推荐

Java 中的逻辑回归

我们需要用 Java 进行逻辑回归我们在 Python 中使用了这段代码http blog smellthedata com 2009 06 python logistic regression with l2 html http blo
python：发送邮件，在“with”块内时失败

我想知道为什么这段代码 test smtplib SMTP smtp gmail com 587 test ehlo test starttls test ehlo test login address passw test sendmai
Windows 中的信号处理

在Windows中我试图创建一个等待SIGINT信号的python进程当它收到SIGINT时我希望它只打印一条消息并等待SIGINT的另一次出现所以我使用了信号处理程序这是我的 signal receiver py 代码 impo
获取运行时提供的类名的 n 维数组的类

给定一个完全限定的类名和多个维度我想获取该类的类名我相信我可以这样做 public Class elementType Class forName className return Array newInstance elementTy
Android：实现使用内置电话堆栈的自定义 ConnectionService

我正在尝试在我的自定义电话应用程序中实现自定义 ConnectionService 根据文档 http developer android com reference android telecom ConnectionService ht
java.util.Objects 与Optional 哪个更可取？

The java util Objects http download java net java jdk9 docs api java util Objects html类通过许多新方法进行了扩展对象 requireNonNullEls
如何恢复 QSS 属性的默认系统值？

如果父级之一将其样式表设置为 Qt QSS 会传播给子级color red 它的所有子级都将应用此样式表如果你明确设置QLabel color red 那么只有 QLabel 子项会受到关注如果子项设置自己的值则可以覆盖子项的样式表c
带操作栏的 requestFeature

所以我正在查看 google 的操作栏 api 演示他们有这个 The Action Bar is a window feature The feature must be requested before setting a conte
Oauth 2：为什么刷新令牌必须是有状态的？

我正在开发一个基于 Node 的 SPA 应用程序并使用 JWT 进行基于令牌的身份验证目前 jwt 令牌永远不会过期这不太好我希望它过期以提高安全性但我不希望我的用户被迫重新登录这就是为什么我需要刷新令牌所以我正在阅读有关
React Native：即使文件不存在，也会出现 hprof 文件太大错误

当我尝试跑步时git push origin master在我的 React Native 应用程序中我得到 file android java pid60072 hprof is 564 94 MB this exceeds GitHu
如何让SeekBar占据父级的整个宽度

我有一个SeekBar in a RelativeLayout其宽度等于屏幕宽度我申请了layout width match parent to the SeekBar但两边似乎都留有一些空白SeekBar以容纳拇指我也尝试过使用and
Pandas 过滤 - 非索引列上的 Between_time

我需要过滤掉特定时间的数据 DataFrame 函数 Between time 似乎是执行此操作的正确方法但是它仅适用于数据帧的索引列但我需要原始格式的数据例如数据透视表期望日期时间列具有正确的名称而不是索引这意味着每个过滤器
按名称删除 jsonb 数组项

我有下表 CREATE TABLE country id INTEGER NOT NULL PRIMARY KEY name VARCHAR 50 extra info JSONB INSERT INTO country id extra
在 Datagrid wpf 上对数据进行分组

我想使用包含组名称并包含所有 ClassMate 名称的扩展器重新组合我的数据这是我的班级组 public class Group public List
属性错误：未找到下层；在 scikit-learn 中使用带有 CountVectorizer 的 Pipeline

我有一个这样的语料库 X train this is an dummy example in reality this line is very long here is a last text in the training set 和一
在单个命令中使用前缀重命名文件夹中的所有文件

重命名带有前缀的文件夹中的所有文件 Unix 假设一个文件夹有两个文件 a txt b pdf 那么它们都应该从一个命令重命名为 Unix a txt Unix b pdf 如果您的文件名包含没有空格并且你没有任何子目录你可以使用一个简单
从 django 返回带有 BOM 的 UTF-8 编码的 csv

我正在尝试输出一个用户可以用 Excel 打开的 CSV 文件我已经用 UTF 8 编码了所有字符串但是当我用 Excel 打开文件时我看到了乱码只有在将文件转换为带 BOM 的 UTF 8 在 Windows 上使用 notepa
如何使用spring data mongodb在mongodb中创建视图

如何使用spring data mongodb在mongodb中创建视图谢谢您可以在需要的地方注入 org springframework data mongodb core MongoTemplate 类型的 bean 并使用其方法之
从两个字典创建一个新列表

这是一个关于Python的问题我有以下字典列表 listA t 1 tid 2 gtm 3 c1 4 id 111 t 3 tid 4 gtm 3 c1 4 c2 5 id 222 t 1 tid 2 gtm 3 c1 4 c2 5 id
提高 pytesseract 从图像中正确识别文本的能力

我正在尝试使用读取验证码pytesseract模块大多数时候它都能提供准确的文本但并非总是如此这是读取图像操作图像以及从图像中提取文本的代码 import cv2 import numpy as np import pytesser

提高 pytesseract 从图像中正确识别文本的能力

提高 pytesseract 从图像中正确识别文本的能力 的相关文章

随机推荐

热门标签

提高 pytesseract 从图像中正确识别文本的能力的相关文章