使用python进行图片的文字识别

2023-11-07

使用python进行图片的文字识别

安装 Tesseract OCR

  • Tesseract OCR 是一款由 Google 团队开发的开源 OCR(Optical Character Recognition,光学字符识别)引擎,用于将图片、PDF 等格式中的文本转换为可编辑的文本格式。自 1985 年首次发布以来,它已经经历了多个版本和改进,并成为目前最受欢迎的 OCR 引擎之一。

    Tesseract OCR 支持多种语言,包括英语、中文、日语、俄语等等,而且具有较高的准确率和稳定性,尤其在处理大量文字的场景下表现突出。同时,该引擎还支持多线程处理,可以有效地提高识别速度。

  • 下载地址:Home · UB-Mannheim/tesseract Wiki (github.com)

  • Windows安装包: https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-5.3.1.20230401.exe

  • 请添加图片描述

注意: 这是Windows64位系统安装包.

tesseract源码的GitHub地址:tesseract-ocr/tesseract: Tesseract Open Source OCR Engine ,有能力的可以自行编译源代码

安装过程

  • 双击tesseract-ocr-w64-setup-5.3.1.20230401.exe安装包进行安装

    请添加图片描述

    首先是选择语言界面,默认是英文, 没有中文,有其他国家的语言可以选。

  • Next

    请添加图片描述

  • I Agree

    请添加图片描述

  • 默认为这台电脑进行安装

    请添加图片描述

  • 因为需要在 Tesseract OCR 中识别中文简体等非英语文本,所有需要安装相应的语言数据。

请添加图片描述

可以只安装特定语言, 比如中文简体

请添加图片描述

  • 选择安装路径, 比如我选的是D:\Tesseract-OCR,待会配系统环境变量可能会用到这个安装路径。

    请添加图片描述

  • 创建快捷图标

    请添加图片描述

  • 安装中

    请添加图片描述

  • Next

    请添加图片描述

  • Finish

    请添加图片描述

  • 可以在开始菜单栏中看到Console

    请添加图片描述

  • 点进去就能直接进入控制台了

    请添加图片描述

  • 输入:tesseract --help试试

    请添加图片描述

    因为我们不是直接使用命令去操作这个tesseract, 而是使用python去操作它, 因此这个命令行就不用管他, 可以关掉。接下来为了让python能直接使用它, 需要检查系统的环境变量有没有设置好。

    在Windows操作系统中,环境变量用于存储一些系统或用户自定义的参数和路径信息。这些参数和路径信息可以帮助操作系统找到系统中安装的软件和程序,以便正确地运行它们。

  • 重新开个命令窗口

    请添加图片描述

    输入tesseract -v查看版本号,你可能会出现上面的情况, 就是没有配置好系统的环境变量,那就需要配置环境变量

    配置系统的环境变量

  • 以windows10的电脑为例, 打开电脑设置

    请添加图片描述

  • 点击系统, 找到关于,侧边有个高级系统设置, 点击去

    请添加图片描述

  • 可以看到环境变量, 点进去

    请添加图片描述

  • 找到系统变量中的Path选中, 再点击编辑

    请添加图片描述

  • 进入后点击新建

    请添加图片描述

  • 将安装路径复制进去,比如我安装的路径为D:\Tesseract-OCR

    请添加图片描述

  • 复制进去后点击确认

    请添加图片描述

  • 重新进入到命令行中

    输入tesseract -v, 若出现版本号则设置成功

    请添加图片描述

OK, tesseract算是安装完成了, 接下来使用python去操作它了!

安装python的第三方库

Pytesseract库

  • Pytesseract 是一个 Python 的 OCR(Optical Character Recognition,光学字符识别)库,可以用来将图片、PDF 等文件中的文本转换为可编辑的文本格式。它基于 Google 的 Tesseract OCR 引擎,支持多种语言,并且具有较高的准确率和稳定性。

  • 安装 Pytesseract 库可以使用 pip 工具快速完成。按照以下步骤进行操作:

    1. 打开命令行工具(Windows: cmd,Linux/macOS: Terminal)。

    2. 输入以下命令来安装 Pytesseract:

      pip install pytesseract
      
    3. 等待安装完成即可。

      请添加图片描述

    有一点需要注意的是,Pytesseract 库依赖于 Tesseract OCR 引擎,因此在安装 Pytesseract 之前请确保已安装 Tesseract OCR。如果还没有安装 Tesseract OCR,请先下载和安装它,然后再安装 Pytesseract。

  • 可以使用pip list 命令列出你已经安装的python库

    请添加图片描述

请添加图片描述

Pillow库

  • Pillow 是一个功能强大的图像处理库,可以处理多种格式的图像文件,支持图像处理、图像增强、图像转换等多种操作。
  • 因为识别图片需要用到PIL(Python Imaging Library)库中的 Image 模块

使用 pip 工具来安装 Pillow 库。以下是安装 Pillow 库的命令:

pip install pillow

安装完成后,就可以在 Python 中使用 from PIL import Image 来进行图像处理和操作了。

运行个demo

比如识别这张图

请添加图片描述

import pytesseract
from PIL import Image

# 加载图片
img = Image.open('images/demo.png')

# 转换为灰度图像
img = img.convert('L')

# 识别文本, 使用pytesseract库进行OCR识别
text = pytesseract.image_to_string(img)

# 输出识别结果
print(text)

注意: 默认识别英文和数字

识别效果:

请添加图片描述

因为都是中文, 识别不出来

  • 若要识别中文, 得进行配置 (前提是安装tesseract时要选择下载好中文简体数据包才能进行使用)
import pytesseract
from PIL import Image

# 加载图片
img = Image.open('images/demo.png')

# 转换为灰度图像
img = img.convert('L')

# 识别文本, 使用pytesseract库进行OCR识别, 将语言设置成中文
text = pytesseract.image_to_string(img, lang='chi_sim')
# 输出识别结果
print(text)

请添加图片描述

这个识别的正确率还可以, 这取决于图片的质量和文字的清晰规整程度

OK, 上述只是简单的小例子,更多用法可以自行探索, 还可以设置其他参数来提高文字的识别正确率!


比如下面是官方的说明例子:

from PIL import Image

import pytesseract

# 如果您的PATH中没有tesseract可执行文件,请包括以下内容:
pytesseract.pytesseract.tesseract_cmd = r'<full_path_to_your_tesseract_executable>'
# 示例 tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract'

# 简单的图像转字符串
print(pytesseract.image_to_string(Image.open('test.png')))

# 为了绕过pytesseract的图像转换,只需使用相对或绝对图像路径
# 注意:在这种情况下,您应该提供tesseract支持的图像,否则tesseract将返回错误
print(pytesseract.image_to_string('test.png'))

# 可用语言列表
print(pytesseract.get_languages(config=''))

# 将法语文本图像转换为字符串
print(pytesseract.image_to_string(Image.open('test-european.jpg'), lang='fra'))

# 使用包含多个图像文件路径列表的单个文件进行批处理
print(pytesseract.image_to_string('images.txt'))

# 在一段时间后超时/终止tesseract作业
try:
    print(pytesseract.image_to_string('test.jpg', timeout=2)) # 在2秒后超时
    print(pytesseract.image_to_string('test.jpg', timeout=0.5)) # 半秒后超时
except RuntimeError as timeout_error:
    # tesseract处理已终止
    pass

# 获取边界框估计
print(pytesseract.image_to_boxes(Image.open('test.png')))

# 获取详细数据,包括框、置信度、行和页码
print(pytesseract.image_to_data(Image.open('test.png')))

# 获取有关方向和脚本检测的信息
print(pytesseract.image_to_osd(Image.open('test.png')))

# 获取可搜索的PDF
pdf = pytesseract.image_to_pdf_or_hocr('test.png', extension='pdf')
with open('test.pdf', 'w+b') as f:
    f.write(pdf) # pdf类型默认为bytes

# 获取HOCR输出
hocr = pytesseract.image_to_pdf_or_hocr('test.png', extension='hocr')

# 获取ALTO XML输出
xml = pytesseract.image_to_alto_xml('test.png')


本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用python进行图片的文字识别 的相关文章

  • 如何跳过财务图中的空日期(周末)

    ax plot date dates dates highs lows 我目前正在使用此命令来绘制财务高点和低点Matplotlib http en wikipedia org wiki Matplotlib 效果很好 但如何删除 x 轴上
  • 如何在 kubernetes 上使多个 pod 相互通信

    我是 Kubernetes 新手 我正在尝试通过 microk8s 将应用程序部署到 Kubernetes 该应用程序包含Python Flask后端 Angular前端 Redis和MySQL数据库 我将映像部署在多个 Pod 中 状态显
  • 是否可以在 Sphinx 中隐藏 Python 函数参数?

    假设我有以下函数 该函数记录在Numpydoc 风格 https github com numpy numpy blob master doc HOWTO DOCUMENT rst txt 并且文档是自动生成的Sphinx http sph
  • 使用 Python 的 optparse 模块时如何遵守 PEP 257 文档字符串?

    根据PEP 257 http www python org dev peps pep 0257 multi line docstrings命令行脚本的文档字符串应该是它的使用消息 脚本的文档字符串 a 独立程序 应该可用 作为其 使用 消息
  • 修复类以在 Flask 会话中启用对象存储[重复]

    这个问题在这里已经有答案了 我有一个自定义类 Passport 其中包含活动用户身份和权限 我曾经将它存储在会话中 如下所示 p Passport p do something fancy session passport p 它就奏效了
  • 如何充分释放函数中使用的GPU内存

    我在用着cupy在接收一个函数numpy数组 将其推到 GPU 上 对其进行一些操作并返回cp asnumpy它的副本 问题 函数执行后内存没有被释放 如ndidia smi 我知道内存的缓存和重用cupy 但是 这似乎仅适用于每个用户 当
  • 如何在Windows命令行中执行for循环?

    我想知道这是否可能 我不熟悉使用 Windows 命令行 但我必须将它用于我正在处理的项目 我有许多文件 我需要为每个文件执行一个功能 我习惯使用 python 但显然这有点不同 所以我希望得到一些帮助 基本上 我需要 for 循环来迭代文
  • 覆盖现有的 django-admin 命令

    除了编写自定义 django admin 命令之外 这是有详细记录的 https docs djangoproject com en 1 9 howto custom management commands 我希望能够覆盖现有命令 例如ma
  • Web 应用程序的带宽和流量模拟器?

    您能否建议如何创建一个测试环境来模拟 Web 应用程序中的各种类型的带宽和流量 或者也许是一个针对本地主机执行此操作的开源程序 我认为在编写网络应用程序时这是一个非常重要的主题 但这不是一个常见的主题 我能想象创建这种环境的唯一方法是在本地
  • 比较两个文本文件并计算差异

    我一直在尝试在Python中比较两个文本文件 本质上我想打开它们并一次比较一个字符 如果字符不同 则向计数器添加1 然后显示该值 这是我到目前为止所拥有的 usr bin env python diff 0 import random im
  • 如何在返回的 AJAX 调用上使用 django 模板标签?

    我有一个简单的 AJAX 脚本 它在名为的搜索字段中获取输入的字符串AJAXBox并调用一个视图函数 该函数使用过滤器查询数据库并返回与输入参数匹配的所有 User 对象的查询集 当我使用 django 模板标签迭代查询集时 它不起作用 我
  • 当我打印“查询”时获取 PY_VAR1

    我正在制作一个简单的网络抓取代码 当我尝试打印一个值时 它给了我其他东西 def PeopleSearch query SearchTerm query what is query print str query SearchTerm St
  • 如何从 Qt 应用程序通过 ODBC 连接到 MySQL 数据库?

    我有一个新安装的 MySQL 服务器 它监听 localhost 3306 从 Qt 应用程序连接到它的正确方法是什么 原来我需要将MySQL添加到ODBC数据源 我在遵循这个视频教程后做到了这一点 https youtu be K3GZi
  • Learning_rate 不是合法参数

    我正在尝试通过实现 GridSearchCV 来测试我的模型 但我似乎无法在 GridSearch 中添加学习率和动量作为参数 每当我尝试通过添加这些代码来执行代码时 我都会收到错误 这是我创建的模型 def define model op
  • 为什么 tesseract 无法从这个简单的图像中读取文本?

    我在 pytesseract 上阅读了大量的帖子 但我无法让它从一个简单的图像中读取文本 它返回一个空字符串 这是图像 我尝试过缩放它 灰度化它 调整对比度 阈值 模糊 以及其他帖子中所说的一切 但我的问题是我不知道 OCR 想要更好地工作
  • 在Python中将罗马数字转换为整数

    根据 user2486 所说 这是我当前的代码 def romanMap map M 1000 CM 900 D 500 CD 400 C 100 XC 90 L 50 XL 40 X 10 IX 9 V 5 V 4 I 1 return
  • Django 迁移错误 'TypeError: 序列项 1: 需要一个类似字节的对象,在 mysql-connector-pythoncursor_cent.py 文件上找到 str'

    我正在 Django 项目中使用 mysql connector 来处理 mysql 请求 问题是我正在使用 django admin startproject project 设置一个简单的项目 当我尝试进行简单的管理 py 迁移时 这是
  • 需要一个从 yaml 文件中提取内容并输出为 csv 文件的脚本

    我对 python 很陌生 但我很感激您帮助指导我创建一个简单的脚本 该脚本读取一堆 yaml 文件 同一目录中的大约 300 个文件 并从 yaml 文件并将其转换为 csv yaml 文件中内容的示例 code 9313 degrees
  • 使用 Python 进行 Google 搜索网页抓取 [关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 最近为了工作中的一些项目 学习了很多python 目前我需要使用谷歌搜索结果进行一些网络抓取 我发现几
  • 使用Python的线程模块调用ctypes函数比使用多处理更快?

    我一生都无法找出这个问题的答案 我编写了一个可以执行数百次繁重计算的脚本 我有一个绝妙的主意 将这些计算任务编写为 C 然后使用 Python 的 ctypes 与它们交互 我心想 我什至可以使用并行性进一步优化它 我最初的方法是使用线程

随机推荐

  • MySQL数据库基本概念介绍

    MySQL数据库 一 数据库的简介 1 数据 Data 2 表 3 数据库 二 数据库的概念 1 数据库管理系统 DBMS 2 数据库系统 三 数据库的发展史 1 第一代数据库 2 第二代数据库 3 第三代数据库 四 当前主流数据库介绍 1
  • 搜索引擎solr系列---与java的springboot项目连接配置

    java与solr连接 调用查询的方式 我知道的有两种 solrj方式 这种方式写法较麻烦 倒不是因为难 就是简单的逻辑 有时候为了一个业务写一堆代码 所以solrj的这种方式还是比较灵活的 能实现你需要的变态业务需求 我发现它的一个小缺点
  • SpringBoot 3.x整合Fluent Mybatis极简流程

    此为基础配置 不包括其他高级配置 需要其他高级配置请查阅官方文档 fluent mybatis特性总览 Wiki Gitee com https gitee com fluent mybatis fluent mybatis wikis f
  • 软件测试学习路线

    下图是某培训机构的课程概要 同样的 我们学习的路线基本如此 下面主要总结一下 注意 因为自身原因 所以我的方案是自己的自学方案 仅作参考 1 测试基础知识 一些测试必备文档以及概念要掌握 这是最基本的 1 gt 测试分类 按测试技术划分为
  • 实验吧——加了料的报错注入

    coding utf8 import requests import re def denglu username password 设置代理 用于调试过程中抓包分析 proxies http http localhost 9008 htt
  • 了解文件的随机读写,文件类别、文件缓冲区,文件操作知识点补充(接上文)

    文件的操作 老规矩笔记自取 文件操作进阶笔记 欢迎喜欢学习C C 的朋友互关一起努力 文章目录 文件的操作 一 文件的随机读写 1 fseek 定位文件指针函数 2 ftell 当前偏移量函数 3 rewind 返回起始位置函数 二 文本文
  • java操作seaweedfs

    前置条件是seaweedfs服务已成功启动 具体部署可参考我上篇文章SeaweedFS部署及使用指南 首先导入pom依赖
  • Python Scrapy网络爬虫框架从入门到实战

    Python Scrapy是一个强大的网络爬虫框架 它提供了丰富的功能和灵活的扩展性 使得爬取网页数据变得简单高效 本文将介绍Scrapy框架的基本概念 用法和实际案例 帮助你快速上手和应用Scrapy进行数据抓取 Scrapy是一个基于P
  • SpringMVC源码总结 ViewResolver介绍

    首先我们先看看ModelAndView中重要的View接口 View接口 Java代码 String getContentType Render the view given the specified model p The first
  • QT翻金币小游戏实现(三)

    4 创建翻金币场景 4 1创建翻金币界面 设计好主场景以及选择关卡界面以后 就来到了最重要的一环 翻金币 首先还是创建一个cpp文件命名为PlayScene 第一步在选择关卡中声明PlayScene pScene NULL 方便后面使用 点
  • 模拟点击事件

    一 通过代码模拟用户对按钮的点击 模拟按钮的点击 方法一 使用btn click模拟用户的点击 btn click 方法二 两秒之后自动松开按钮 btn animateClick 2000 区别是方法一没有什么动画 界面展示 方法二有时间效
  • C#笔记9——基于TableLayoutPanel的多分屏、全屏程序

    C 笔记9 基于TableLayoutPanel的多分屏 全屏程序 最近由于工作需要 需要设置一个多分屏窗口以便于多分屏播放视频 思考了一下 大致思路如下 用TableLayoutPanel来划分多个区域 在每个区域中都放入一个Pictur
  • windows下composer切换php不同版本使用

    D object cms gt D sf phpStudy 64 phpstudy pro Extensions php php7 3 4nts php exe D sf phpStudy 64 phpstudy pro Extension
  • A²B汽车音频总线介绍

    A B使远程I S TDM成为可能 I S是飞利浦公司为数字音频设备之间的音频数据传输而制定的一种总线标准 该总线专责于设备之间的数据传输 广泛应用于各种多媒体系统 I C是两线式串行总线 用于连接微控制器及其外围设备 简单来说就是I C传
  • CANopen协议 学习笔记

    大纲 前沿 以问题为导向学习是最高效的 本文主要讲述在学习Canopen协议中的一些疑惑点 分享一些学习心得 不讲协议本身的内容 1 主机和从机的概念 2 PDO和SDO的区别是什么 3 OD存在的意义是什么 4 心跳检测的意义 0x00
  • LeetCode 刷题 28

    这一题 第一反应是 用map 或者栈 但是仔细想想后觉得太麻烦了 于是选用了双指针的方法 class Solution public int strStr string haystack string needle int hay 0 in
  • Jmeter测试linux服务器性能,报错:SampleSaveConfiguration.setFormatter(Ljava/text/DateFormat;)V

    1 出现问题 在执行命令 jmeter n t test jmx l log jtl 时 报标题错误 2 原因 Jmeter的版本太高了 不支持其中一个方法了 jmeter版本太高 setFormatter方法在3 1版本后不支持 但是插件
  • python输出个数、给定一个n*n的矩阵m_简述Numpy

    numpy的数组对象ndarray np array 生成一个ndarray数组 np array 输出成 形式 元素由空格分割 轴 axis 保存数据的维度 秩 rank 轴的数量 ndarray对象的属性 属性 说明 ndim 秩 即轴
  • MAC之常用终端命令、隐藏/打开文件、查看磁盘占用情况、系统盘占用存储过大

    1 从普通用户lambo切换到root用户 sudo i 2 从root用户切换到普通用户 exit 3 普通用户之间的切换 sudo 普通用户名 4 sudo su 直接进入sh 3 2 返回到之前的用户 exit 5 回到home目录
  • 使用python进行图片的文字识别

    使用python进行图片的文字识别 文章目录 使用python进行图片的文字识别 安装 Tesseract OCR 安装过程 配置系统的环境变量 安装python的第三方库 Pytesseract库 Pillow库 运行个demo 安装 T