Python之pytesseract模块-实现OCR

2023-05-16

欢迎关注原创视频教程

Python微信订餐小程序课程视频

https://edu.csdn.net/course/detail/36074

Python实战量化交易理财系统

https://edu.csdn.net/course/detail/35475
在给PC端应用做自动化测试时,某些情况下无法定位界面上的控件,但我们又想获得界面上的文字,则可以通过截图后从图片上去获取该文字信息。那么,Python中有没有对应的工具来实现OCR呢?答案是有的,它叫pytesseract。官方给它的定义如下,一起来了解和使用吧。

Python-tesseract is an optical character recognition (OCR) tool for python. That is, it will recognize and “read” the text embedded in images.

Python-tesseract is a wrapper for Google’s Tesseract-OCR Engine. It is also useful as a stand-alone invocation script to tesseract, as it can read all image types supported by the Pillow and Leptonica imaging libraries, including jpeg, png, gif, bmp, tiff, and others. Additionally, if used as a script, Python-tesseract will print the recognized text instead of writing it to a file.

安装

1.首先下载并安装teseseract安装包,下载地址:https://digi.bib.uni-mannheim.de/tesseract/

img

2.安装完成后,添加系统环境变量。

3.安装对应的Python库。在实践过程中,单独安装pytesseract时会报错,需要与pillow一起安装。

pip install pillow
pip install pytesseract

4.根据需要解析的文字语言,下载对应的语言包,下载地址:https://github.com/tesseract-ocr/tessdata ,拿中文语言包举例,下载chi_sim.traineddata后,将其放入Teseseract-OCR安装目录下的tessdata目录即可。

使用

举个例子,想要提取图片中的“酌三巡”三个字。

img

使用方法非常简单,调用pytesseract.image_to_string()方法即可。

from PIL import Image
import pytesseract

img = Image.open("demo.png")
ocr_text = pytesseract.image_to_string(img, lang="chi_sim")
print("提取结果为:", ocr_text)

运行结果:

img

参考资料

  • https://github.com/madmaze/pytesseract
  • https://github.com/tesseract-ocr/tesseract
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python之pytesseract模块-实现OCR 的相关文章

随机推荐

  • 请求头(request headers)和响应头(response headers)解析

    请求头 xff08 request headers xff09 POST user signin HTTP 1 1 请求方式 文件名 http版本号 Host passport cnblogs com 请求地址 Connection kee
  • Tableau基础操作——连接数据源

    Tableau基础操作 连接数据源 Tableau基础操作 连接数据源 前言 随着大数据时代的到来 xff0c 借助于数据分析工具深入分析并可视化呈现变得越来越重要 而Tableau以其低功能强大且学习成本低被越来越多的企业所使用 一 Ta
  • linux下休眠/待机命令

    if you cat sys power state mem disk you can echo mem gt sys power state 这相当于待机 echo disk gt sys power state 这相当于休眠 from
  • 从零开始离线安装k8s集群

    本文主要用于在内网 xff08 离线 xff09 环境安装k8s集群 xff1b linux环境 centos7 6 主要步骤有 xff1a 安装docker创建dokcer 私有镜像库 registry安装kubernetes安装flan
  • 虚拟机中的Linux系统无法识别U盘

    问题描述 xff1a 将U盘插入到电脑USB接口 xff0c 然后在虚拟机的右下角选择让U盘从Windows上断开 xff0c 链接到虚拟机上来 链接上虚拟机后 xff0c 在Linux系统中输入命令fdisk l命令 xff0c 却只有
  • C语言丨关键字enum用法详解,看这篇就够了

    一 关键字enum的定义 enum是C语言中的一个关键字 xff0c enum叫枚举数据类型 xff0c 枚举数据类型描述的是一组整型值的集合 xff08 这句话其实不太妥当 xff09 xff0c 枚举型是预处理指令 define的替代
  • CCF CSP 201512-3 画图

    字符串基础题 问题描述 用 ASCII 字符来画图是一件有趣的事情 xff0c 并形成了一门被称为 ASCII Art 的艺术 例如 xff0c 下图是用 ASCII 字符画出来的 CSPRO 字样 lt 本题要求编程实现一个用 ASCII
  • fails sanity check错误的解决方法

    fails sanity check的解决方法 问题原因 xff1a 编译器缺乏必要的package xff1a 解决办法 xff1a 运行yum install glibc headers gcc c 43 43 即可解决
  • Rust tokio::select学习杂记

    Rust tokio select学习杂记 前言 Linux系统有select poll epoll等 xff0c 主要用于监控各种fd上发生的各种event 从而识别派发处理 golang语言中也有一个select xff0c 作用相似
  • IntelliJ IDEA2020【插件推荐】

    1 推荐动画效果插件 xff1a activate power mode 注 xff1a 需要消耗一定的系统资源 第一步 xff1a 在插件中心在线安装activate power mode插件 xff0c 安装好之后 xff0c 重启ID
  • k8s: 使node不参与调度

    可以通过命令 xff1a kubectl patch node k8s span class token operator span master span class token operator span p 39 span class
  • Linux7查看默认jdk安装目录(默认只有jre环境,无jdk开发环境。附:安装jdk并配置JAVA_HOME)

    1 检测默认jre运行环境 xff08 1 xff09 查看linux7默认运行环境jre span class token comment cd etc alternatives span span class token comment
  • no module的几种解决办法

    1 将其文件夹右击找到设置为marked as sourse root 2 采用sys append 3 在from xxx前面加入yyy xxx 4 python同目录下模块的导入失败问题 日常敲代码间歇旅行的程序媛的博客 CSDN博客
  • 如何获取C币

    C币获取 完善信息获得C币 现在去完善 行为获得数量说明完善个人资料 5完善个人资料 xff08 姓名 职业背景等 xff09 获得5个C币 手机验证获得C币 现在去绑定 行为获得数量说明绑定手机 5首次绑定手机可获得5个C币 撰写博文获得
  • shell:输出数组中大于5的数

    输出数组中大于5的数 xff0c 需要注意if a ge b 中的空格 bin bash array 61 1 2 3 5 64 7 8 9 21 length 61 array 64 for a 61 0 a lt length a 43
  • shell 特殊符号大全

    注释符号 Hashmark Comments 1 在shell文件的行首 xff0c 作为shebang标记 xff0c bin bash 2 其他地方作为注释使用 xff0c 在一行中 xff0c 后面的内容并不会被执行 xff0c 除非
  • shell:查看一个文件是否存在文件夹中

    bin bash check a file is exist or no echo 34 please enter fileName 34 read fileName if test e 34 fileName 34 then echo 3
  • 在WSL中启动Ubuntu 20.04时出现错误[出现错误 2147942402 (0x80070002) (启动“ubuntu2004.exe”时)]

    1 之前好好的WSL xff0c 今天在我装了git xff0c go xff0c 并配置了环境变量后 xff0c 通过终端运行时突然报错 xff0c 错误为 xff1a 出现错误 2147942402 0x80070002 启动 ubun
  • MySQL(七)—— 分组查询

    MySQL数据库系列内容的学习目录 rightarrow 老杜带你学MySQL学习系列内容汇总 7 分组查询7 1 group by7 2 having7 3 select 语句总结 7 分组查询 分组查询主要涉及到两个子句 xff0c 分
  • Python之pytesseract模块-实现OCR

    欢迎关注原创视频教程 Python微信订餐小程序课程视频 https edu csdn net course detail 36074 Python实战量化交易理财系统 https edu csdn net course detail 35