如何有效地读取屏幕上的数字（pytesseract）？

2024-04-26

我正在尝试读取屏幕上的数字，为此我正在使用 pytesseract。问题是，尽管它有效，但它的作用很慢，而且根本不会产生好的结果。例如，对于这张图片：

我可以制作这个阈值图像：

它读取的是 5852 而不是 585，这是可以理解的，但有时使用不同的阈值可能会更糟。例如，它可以将 1 000 000 读取为 1 aaa eee，或将 585 读取为 5385r（是的，它甚至会毫无理由地添加字符）

没有任何方法可以强制 pytesseract 只读取数字或简单地使用比 pytesseract 更好的东西吗？

my code:

from PIL import Image
from pytesseract import pytesseract as pyt
import test
pyt.tesseract_cmd = 'C:/Program Files/Tesseract-OCR/tesseract.exe'

def tti2(location) :
    image_file = location
    im = Image.open(image_file)
    text = pyt.image_to_string(im)
    print(text)
    for character in "abcdefghijklmnopqrstuvwxyz ABCDEFGHIJKLMNOPQRSTUVWXYZ*^&\n" :
        text = text.replace(character, "")
    return text

test.th("C:\\Users\\Utilisateur\\Pictures\\greenshot\\flea market sniper\\TEST.png")
print(tti2("C:\\Users\\Utilisateur\\Pictures\\greenshot\\flea market sniper\\TESTbis.png"))

“测试”的代码（用于阈值）：

import cv2
from PIL import Image

def th(Path) :
    img = cv2.imread(Path)
    # If your image is not already grayscale :
    img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    threshold = 60 # to be determined
    _, img_binarized = cv2.threshold(img, threshold, 255, cv2.THRESH_BINARY)
    pil_img = Image.fromarray(img_binarized)
    Path = Path.replace(".png","")
    pil_img.save(Path+"bis.png")

可以使用仅包含数字值的 tessedit_char_whitelist 配置来强制 pytesseract 只读取数字。您可以尝试使用 Tesseract 文档来改进结果：Tesseract - 提高输出质量 https://tesseract-ocr.github.io/tessdoc/ImproveQuality.html

我还建议您使用：

背景为白色，字符字体颜色为黑色。
选择所需的超正方 psm 模式。在之前的案例中，我使用 7 psm 模式将图像视为单个文本行。
使用 tessedit_char_whitelist 配置仅指定您正在搜索的字符。

考虑到这一点，代码如下：

import cv2
import numpy as np
import pytesseract

pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract'
originalImage = cv2.imread('1.png')
grayImage = cv2.cvtColor(originalImage, cv2.COLOR_BGR2GRAY)
(_, blackAndWhiteImage) = cv2.threshold(grayImage, 127, 255, cv2.THRESH_BINARY_INV)
text = pytesseract.image_to_string(blackAndWhiteImage, config="--psm 7 --oem 3 -c tessedit_char_whitelist=0123456789")
print('Text: ', text)
cv2.imshow('Image result', blackAndWhiteImage)

cv2.waitKey(0)
cv2.destroyAllWindows()

以及期望的结果：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Automation

pythontesseract

如何有效地读取屏幕上的数字（pytesseract）？的相关文章

Python 中的 Flask 错误：“无法导入 webapp”

我正在尝试运行 Flask 但是每当我输入 flask run 时都会出现错误 Could not import webapp 作为参考我正在使用 Visual Studio Code 并运行以下代码 from flask impor
lxml 中的通配符命名空间

如何使用 xpath 忽略 xml 命名空间进行查询我正在使用 python lxml 库我尝试了以下解决方案this https stackoverflow com questions 13463871 xpath selecting
如何从字典构造defaultdict？

如果我有d dict zip range 1 10 range 50 61 我怎样才能建立一个collections defaultdict出于dict 唯一的论点defaultdict似乎采取的是工厂功能我必须初始化然后再经历原来的d并
在Python子目录中创建文件？

在我的 Python 脚本中我需要在子目录中创建一个新文件而不更改目录并且需要从当前目录不断编辑该文件 My code os mkdir datetime dst for ip in open list txt with open ip
Django：如何从管理界面调用管理自定义命令执行？

参考从代码执行管理命令 https stackoverflow com questions 907506 how can i call a custom django manage py command directly from a t
无法从同一项目的 bin 目录导入模块

我正在构建一个库该库将通过 pip 包含在其他项目中我有以下目录 venv 是 virtualenv project bin run py myproj init py logger py venv 我激活虚拟环境在 bin run
chrome_options.binary_location() TypeError: 'str' 对象不可调用

我希望每个人都好我是 python 新手我尝试运行这段代码但我不明白问题是什么以及如何解决这个问题我的代码是 from selenium import webdriver from time import sleep url raw
在heroku实例上安装PIL

我创建了一个python flask托管在heroku上的应用程序我很有趣PILpython 中的图像库我无法安装PIL在heroku实例中我尝试过以下几种方法方法一 Added PIL 1 1 7 in requirements
Pytorch“展开”等价于 Tensorflow [重复]

这个问题在这里已经有答案了假设我有大小为 50 50 的灰度图像在本例中批量大小为 2 并且我使用 Pytorch Unfold 函数如下所示 import numpy as np from torch import nn from
在 matplotlib 中查看然后自动关闭图形？

我必须检查我的参数设置是否正确因此我需要绘制许多图为了绘制这些图我选择使用 matplotlib 每次检查后我需要单击左上角的关闭按钮这很微不足道那么有没有什么方法可以让剧情在3 5秒左右显示并且无需点击就自动关闭呢我知道关于
Flask 无法识别两个 URL 参数

我正在尝试将两个参数发送到使用 Flask 路由的 URL If I do curl i http 127 0 0 1 5000 api journeys count startStationName Hansard 20Mews 20Sh
当前异常上下文掩盖了先前的错误

以下是我在 Doug Hellman 网站上名为 masking exceptions catch py 的文件中找到的示例我暂时无法找到链接 throws 中引发的异常将被丢弃而 cleanup 中引发的异常将被报告道格在他的文章中
如何用不同的颜色填充seaborn.distplot中的区域

是否可以用颜色填充两条阈值线 line1 和 line2 之外的区域并通过 distplot 绘制的 KDE 曲线限制 Y 轴代表我的应用程序的 3 sigmas import pylab as pl import seaborn as
第 100 次避免循环导入

Summary 我继续有一个ImportError在一个复杂的项目中我已经将其蒸馏到仍然会出现错误的最低限度 Example 巫师有装有绿色和棕色药水的容器这些可以添加在一起产生同样是绿色或棕色的新药水我们有一个PotionABC
如何按分层类别结构中的值对 pandas 中的数据框进行排序

我有一个 pandas 数据框 pd DataFrame category Transport Transport Car Transport Train Household Household Utilities Household Ut
mpld3图，注释问题

我正在使用 mpld3 在 Intranet 网站上显示图形我正在使用将图形保存到字典并使用 mpld3 js 在客户端渲染它的选项除非我想使用注释否则该图呈现良好这些显然是抵消的我不明白为什么因为即使我将偏移量设置为 0 0
设置restrict_xpaths设置后出现UnicodeEncodeError

我是 python 和 scrapy 的新手将restrict xpaths 设置设置为 table class lista 后我收到了以下回溯奇怪的是通过使用其他 xpath 规则爬虫可以正常工作 Traceback most
Python二进制数据读取

urllib2 请求接收二进制响应如下所示 00 00 00 01 00 04 41 4D 54 44 00 00 00 00 02 41 97 33 33 41 99 5C 29 41 90 3D 71 41 91 D7 0A 47 0
在 python 中使用 org.mpris.mediaplayer2.player PlaybackStatus 属性

The 规格页 http specifications freedesktop org mpris spec latest Player Interface html summary对于这个特定的接口说 PlaybackStatus s P
无法比较类型“ndarray(dtype=int64)”和“str”

Example of data that I want to replace 数据具有以下属性购买 V 高高中低维持 V 高高中低门 2 3 4 5 更多 2 4人以上 lug boot 小中大安全性低中高这就是

随机推荐

用于网站的 Git / 接收后 / 测试站点和生产站点的分离

我使用 Git 来管理网站的源代码和部署目前测试站点和实时站点在同一个机器上运行关注此资源http toroid org ams git website howto http toroid org ams git website how
我们绝对需要 STS 来实现 SAML 吗？

我第一次尝试实现支持 SAML 的 SOAP 服务并且对 SAML 实现中安全令牌服务 STS 的作用有一些概念性问题用户 gt Web 应用程序 SOAP SAML gt 消息传递应用程序基本上该场景是用户使用其用户名和密码登录到
如何获取内存中缓冲区的文件描述符？

如果我有一个包含文件数据的缓冲区如何从中获取文件描述符这是一个源自于的问题如何解压内存中的文件 https stackoverflow com questions 1553653 how to untar file in memory
jquery val() 不工作

jQuery val 不起作用这是简单的脚本 com form submit function var name nama val var komentar komentar val alert Hi name this is your
如何将data.table按多列连续分组

我想获取一堆由数百个分组变量分组的描述性统计数据我知道从如何按多列对data table进行分组 https stackoverflow com questions 12478943 how to group data table by
更新进度动画 gif 在回发时停止

我使用了 ajax 更新进度控件在回发发生时显示动画 gif 问题它显示一段时间但随后停止刷新或者更确切地说停止播放循环造成同样情况的实际原因是什么请指教谢谢使用 Internet Explorer 时 gif 的动画将
我想要表格格式的选择查询结果，例如摘要报告

例如 month1 month2 month3 total district1 5 2 9 16 district2 1 0 11 12 total 260 150 140 550 这里最终的总数并不重要但至少我需要显示每个地区每月的数量
以非 root 用户身份在 UserData 中运行命令

我正在尝试使用 EC2 UserData 脚本安装气流我需要使用非 root 用户 ec2 user 运行一些命令请参阅下面的脚本 UserData Fn Base64 Sub bin bash set xe Install GCC y
JavaFX 8：拦截应用程序“退出”

为了验证用户所做的所有更改是否已保存我想拦截 JavaFX 应用程序的退出退出是否有一种通用的方法来实现这一目标例如覆盖事件或者还有更多方法吗正如他们已经说过的这是通过拦截来完成的WindowEvent WINDOW CLOS
在 Android 编辑文本字段中显示一条消息

海我有一个带有一个文本字段的 Android 程序当它加载到模拟器上时我需要在该文本字段内显示一条消息当用户在该文本框中单击时该消息应该消失例如请输入姓名任何人都可以在这里发布一些示例代码吗只需使用或致电setHint在物
设备中的嵌套资源

我是 Rails 新手我想要一些关于我的路线和正确的路由逻辑的建议我正在开发一个非常简单的应用程序用户可以在其中发布列表用户设计模型有很多列表并且该列表属于一个用户我的列表中有一个 user id integer 当用户成功
Elasticsearch 崩溃后无法恢复

磁盘空间不足导致 Elasticsearch 分片崩溃三个节点现在为红色两个节点已恢复它们的状态为黄色 ES 的 CPU 利用率为 150 内存利用率很高正在尝试恢复它们但似乎存在一些版本匹配冲突我清理了磁盘空间并删除了分片的
如何在doctrine2查询生成器where语句中添加运算符

我试图从一个表中进行选择其中所选持续时间除以条目持续时间等于没有余数 qb em gt createQueryBuilder gt from AcmeBlogBundle Entry e gt andWhere duration e du
Android 和 PhoneGap——在 NPObject 上调用方法时出错

我正在尝试设置FLAG SHOW WHEN LOCKED在我的phonegap应用程序中但仅当显示特定页面时为此我有一个 Java 插件扩展自CordovaPlugin在以下代码中execute method if action e
MySQL Workbench 连接编码

在测试一些代码时我偶然发现了以下 MySQL 错误 Error Code 1267 Illegal mix of collations utf8 general ci IMPLICIT and utf8mb4 general ci COE
PHP GD库调整照片大小

我正在尝试使用 PHP 的 GD 库创建照片的缩略图以下是我正在采取的步骤创建GD图像资源获取图像的高度和宽度创建一个空白的 gd 图像资源高度为 100 像素宽度适当将资源图像复制到空白 gd 图像资源并保存这两个图像这
根据长度将字符串拆分为包含 1-3 个单词的字符串数组

我有以下输入字符串 Lorem ipsum dolor sat amet consectetur adipiscing elit sed doeiu smod tempor incididunt ut Duis aute irure dol
如何指定 Perl 的 Inline::Python 模块正在使用的 Python 版本？

我正在运行 Debian squeeze 和 perl v5 10 1 并且安装了两个版本的 python pyversions i python2 5 python2 6 Python Inline显然使用python2 5 perl u
如何在 Netbeans 中向 C++ 项目添加运行参数

我正在使用 Netbeans 7 0 及其 C 插件我想做这样的事情 test exe lt in txt gt out txt当我运行该项目时在 Netbeans 中哪里可以将这些参数添加到项目中提前致谢 Under File Pr
如何有效地读取屏幕上的数字（pytesseract）？

我正在尝试读取屏幕上的数字为此我正在使用 pytesseract 问题是尽管它有效但它的作用很慢而且根本不会产生好的结果例如对于这张图片我可以制作这个阈值图像它读取的是 5852 而不是 585 这是可以理解的但有时使用不

如何有效地读取屏幕上的数字（pytesseract）？

如何有效地读取屏幕上的数字（pytesseract）？ 的相关文章

随机推荐

热门标签

如何有效地读取屏幕上的数字（pytesseract）？的相关文章