使用python进行图片的文字识别

2023-11-07

使用python进行图片的文字识别

文章目录

使用python进行图片的文字识别

安装 Tesseract OCR

Tesseract OCR 是一款由 Google 团队开发的开源 OCR（Optical Character Recognition，光学字符识别）引擎，用于将图片、PDF 等格式中的文本转换为可编辑的文本格式。自 1985 年首次发布以来，它已经经历了多个版本和改进，并成为目前最受欢迎的 OCR 引擎之一。

Tesseract OCR 支持多种语言，包括英语、中文、日语、俄语等等，而且具有较高的准确率和稳定性，尤其在处理大量文字的场景下表现突出。同时，该引擎还支持多线程处理，可以有效地提高识别速度。
下载地址:Home · UB-Mannheim/tesseract Wiki (github.com)
Windows安装包: https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-5.3.1.20230401.exe

注意：这是Windows64位系统安装包.

tesseract源码的GitHub地址:tesseract-ocr/tesseract: Tesseract Open Source OCR Engine ,有能力的可以自行编译源代码

安装过程

双击tesseract-ocr-w64-setup-5.3.1.20230401.exe安装包进行安装

首先是选择语言界面,默认是英文, 没有中文,有其他国家的语言可以选。
点Next
点I Agree
默认为这台电脑进行安装
因为需要在 Tesseract OCR 中识别中文简体等非英语文本，所有需要安装相应的语言数据。

请添加图片描述

可以只安装特定语言, 比如中文简体

请添加图片描述

选择安装路径, 比如我选的是D:\Tesseract-OCR，待会配系统环境变量可能会用到这个安装路径。
创建快捷图标
安装中
Next
Finish
可以在开始菜单栏中看到Console
点进去就能直接进入控制台了
输入:tesseract --help试试

因为我们不是直接使用命令去操作这个tesseract, 而是使用python去操作它, 因此这个命令行就不用管他, 可以关掉。接下来为了让python能直接使用它，需要检查系统的环境变量有没有设置好。

在Windows操作系统中，环境变量用于存储一些系统或用户自定义的参数和路径信息。这些参数和路径信息可以帮助操作系统找到系统中安装的软件和程序，以便正确地运行它们。
重新开个命令窗口

输入tesseract -v查看版本号，你可能会出现上面的情况, 就是没有配置好系统的环境变量，那就需要配置环境变量

配置系统的环境变量
以windows10的电脑为例, 打开电脑设置
点击系统, 找到关于,侧边有个高级系统设置, 点击去
可以看到环境变量, 点进去
找到系统变量中的Path选中, 再点击编辑
进入后点击新建
将安装路径复制进去,比如我安装的路径为D:\Tesseract-OCR
复制进去后点击确认
重新进入到命令行中

输入tesseract -v, 若出现版本号则设置成功

OK， tesseract算是安装完成了, 接下来使用python去操作它了!

安装python的第三方库

Pytesseract库

Pytesseract 是一个 Python 的 OCR（Optical Character Recognition，光学字符识别）库，可以用来将图片、PDF 等文件中的文本转换为可编辑的文本格式。它基于 Google 的 Tesseract OCR 引擎，支持多种语言，并且具有较高的准确率和稳定性。
安装 Pytesseract 库可以使用 pip 工具快速完成。按照以下步骤进行操作：
1. 打开命令行工具（Windows: cmd，Linux/macOS: Terminal）。
2. 输入以下命令来安装 Pytesseract：
```
pip install pytesseract
```
3. 等待安装完成即可。
有一点需要注意的是，Pytesseract 库依赖于 Tesseract OCR 引擎，因此在安装 Pytesseract 之前请确保已安装 Tesseract OCR。如果还没有安装 Tesseract OCR，请先下载和安装它，然后再安装 Pytesseract。
可以使用pip list 命令列出你已经安装的python库

请添加图片描述

Pillow库

Pillow 是一个功能强大的图像处理库，可以处理多种格式的图像文件，支持图像处理、图像增强、图像转换等多种操作。
因为识别图片需要用到PIL（Python Imaging Library）库中的 Image 模块

使用 pip 工具来安装 Pillow 库。以下是安装 Pillow 库的命令：

pip install pillow

安装完成后，就可以在 Python 中使用 from PIL import Image 来进行图像处理和操作了。

运行个demo

比如识别这张图

请添加图片描述

import pytesseract
from PIL import Image

# 加载图片
img = Image.open('images/demo.png')

# 转换为灰度图像
img = img.convert('L')

# 识别文本, 使用pytesseract库进行OCR识别
text = pytesseract.image_to_string(img)

# 输出识别结果
print(text)

注意: 默认识别英文和数字

识别效果:

请添加图片描述

因为都是中文, 识别不出来

若要识别中文, 得进行配置 (前提是安装tesseract时要选择下载好中文简体数据包才能进行使用)

import pytesseract
from PIL import Image

# 加载图片
img = Image.open('images/demo.png')

# 转换为灰度图像
img = img.convert('L')

# 识别文本, 使用pytesseract库进行OCR识别, 将语言设置成中文
text = pytesseract.image_to_string(img, lang='chi_sim')
# 输出识别结果
print(text)

请添加图片描述

这个识别的正确率还可以, 这取决于图片的质量和文字的清晰规整程度

OK，上述只是简单的小例子，更多用法可以自行探索，还可以设置其他参数来提高文字的识别正确率！

使用说明文档https://github.com/madmaze/pytesseract/blob/master/README.rst

比如下面是官方的说明例子:

from PIL import Image

import pytesseract

# 如果您的PATH中没有tesseract可执行文件，请包括以下内容:
pytesseract.pytesseract.tesseract_cmd = r'<full_path_to_your_tesseract_executable>'
# 示例 tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract'

# 简单的图像转字符串
print(pytesseract.image_to_string(Image.open('test.png')))

# 为了绕过pytesseract的图像转换，只需使用相对或绝对图像路径
# 注意:在这种情况下，您应该提供tesseract支持的图像，否则tesseract将返回错误
print(pytesseract.image_to_string('test.png'))

# 可用语言列表
print(pytesseract.get_languages(config=''))

# 将法语文本图像转换为字符串
print(pytesseract.image_to_string(Image.open('test-european.jpg'), lang='fra'))

# 使用包含多个图像文件路径列表的单个文件进行批处理
print(pytesseract.image_to_string('images.txt'))

# 在一段时间后超时/终止tesseract作业
try:
    print(pytesseract.image_to_string('test.jpg', timeout=2)) # 在2秒后超时
    print(pytesseract.image_to_string('test.jpg', timeout=0.5)) # 半秒后超时
except RuntimeError as timeout_error:
    # tesseract处理已终止
    pass

# 获取边界框估计
print(pytesseract.image_to_boxes(Image.open('test.png')))

# 获取详细数据，包括框、置信度、行和页码
print(pytesseract.image_to_data(Image.open('test.png')))

# 获取有关方向和脚本检测的信息
print(pytesseract.image_to_osd(Image.open('test.png')))

# 获取可搜索的PDF
pdf = pytesseract.image_to_pdf_or_hocr('test.png', extension='pdf')
with open('test.pdf', 'w+b') as f:
    f.write(pdf) # pdf类型默认为bytes

# 获取HOCR输出
hocr = pytesseract.image_to_pdf_or_hocr('test.png', extension='hocr')

# 获取ALTO XML输出
xml = pytesseract.image_to_alto_xml('test.png')

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

笔记

Windows

pytesseract

Tesseract ORC

使用python进行图片的文字识别的相关文章

如何跳过财务图中的空日期（周末）

ax plot date dates dates highs lows 我目前正在使用此命令来绘制财务高点和低点Matplotlib http en wikipedia org wiki Matplotlib 效果很好但如何删除 x 轴上
如何在 kubernetes 上使多个 pod 相互通信

我是 Kubernetes 新手我正在尝试通过 microk8s 将应用程序部署到 Kubernetes 该应用程序包含Python Flask后端 Angular前端 Redis和MySQL数据库我将映像部署在多个 Pod 中状态显
是否可以在 Sphinx 中隐藏 Python 函数参数？

假设我有以下函数该函数记录在Numpydoc 风格 https github com numpy numpy blob master doc HOWTO DOCUMENT rst txt 并且文档是自动生成的Sphinx http sph
使用 Python 的 optparse 模块时如何遵守 PEP 257 文档字符串？

根据PEP 257 http www python org dev peps pep 0257 multi line docstrings命令行脚本的文档字符串应该是它的使用消息脚本的文档字符串 a 独立程序应该可用作为其使用消息
修复类以在 Flask 会话中启用对象存储[重复]

这个问题在这里已经有答案了我有一个自定义类 Passport 其中包含活动用户身份和权限我曾经将它存储在会话中如下所示 p Passport p do something fancy session passport p 它就奏效了
如何充分释放函数中使用的GPU内存

我在用着cupy在接收一个函数numpy数组将其推到 GPU 上对其进行一些操作并返回cp asnumpy它的副本问题函数执行后内存没有被释放如ndidia smi 我知道内存的缓存和重用cupy 但是这似乎仅适用于每个用户当
如何在Windows命令行中执行for循环？

我想知道这是否可能我不熟悉使用 Windows 命令行但我必须将它用于我正在处理的项目我有许多文件我需要为每个文件执行一个功能我习惯使用 python 但显然这有点不同所以我希望得到一些帮助基本上我需要 for 循环来迭代文
覆盖现有的 django-admin 命令

除了编写自定义 django admin 命令之外这是有详细记录的 https docs djangoproject com en 1 9 howto custom management commands 我希望能够覆盖现有命令例如ma
Web 应用程序的带宽和流量模拟器？

您能否建议如何创建一个测试环境来模拟 Web 应用程序中的各种类型的带宽和流量或者也许是一个针对本地主机执行此操作的开源程序我认为在编写网络应用程序时这是一个非常重要的主题但这不是一个常见的主题我能想象创建这种环境的唯一方法是在本地
比较两个文本文件并计算差异

我一直在尝试在Python中比较两个文本文件本质上我想打开它们并一次比较一个字符如果字符不同则向计数器添加1 然后显示该值这是我到目前为止所拥有的 usr bin env python diff 0 import random im
如何在返回的 AJAX 调用上使用 django 模板标签？

我有一个简单的 AJAX 脚本它在名为的搜索字段中获取输入的字符串AJAXBox并调用一个视图函数该函数使用过滤器查询数据库并返回与输入参数匹配的所有 User 对象的查询集当我使用 django 模板标签迭代查询集时它不起作用我
当我打印“查询”时获取 PY_VAR1

我正在制作一个简单的网络抓取代码当我尝试打印一个值时它给了我其他东西 def PeopleSearch query SearchTerm query what is query print str query SearchTerm St
如何从 Qt 应用程序通过 ODBC 连接到 MySQL 数据库？

我有一个新安装的 MySQL 服务器它监听 localhost 3306 从 Qt 应用程序连接到它的正确方法是什么原来我需要将MySQL添加到ODBC数据源我在遵循这个视频教程后做到了这一点 https youtu be K3GZi
Learning_rate 不是合法参数

我正在尝试通过实现 GridSearchCV 来测试我的模型但我似乎无法在 GridSearch 中添加学习率和动量作为参数每当我尝试通过添加这些代码来执行代码时我都会收到错误这是我创建的模型 def define model op
为什么 tesseract 无法从这个简单的图像中读取文本？

我在 pytesseract 上阅读了大量的帖子但我无法让它从一个简单的图像中读取文本它返回一个空字符串这是图像我尝试过缩放它灰度化它调整对比度阈值模糊以及其他帖子中所说的一切但我的问题是我不知道 OCR 想要更好地工作
在Python中将罗马数字转换为整数

根据 user2486 所说这是我当前的代码 def romanMap map M 1000 CM 900 D 500 CD 400 C 100 XC 90 L 50 XL 40 X 10 IX 9 V 5 V 4 I 1 return
Django 迁移错误 'TypeError: 序列项 1: 需要一个类似字节的对象，在 mysql-connector-pythoncursor_cent.py 文件上找到 str'

我正在 Django 项目中使用 mysql connector 来处理 mysql 请求问题是我正在使用 django admin startproject project 设置一个简单的项目当我尝试进行简单的管理 py 迁移时这是
需要一个从 yaml 文件中提取内容并输出为 csv 文件的脚本

我对 python 很陌生但我很感激您帮助指导我创建一个简单的脚本该脚本读取一堆 yaml 文件同一目录中的大约 300 个文件并从 yaml 文件并将其转换为 csv yaml 文件中内容的示例 code 9313 degrees
使用 Python 进行 Google 搜索网页抓取 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案最近为了工作中的一些项目学习了很多python 目前我需要使用谷歌搜索结果进行一些网络抓取我发现几
使用Python的线程模块调用ctypes函数比使用多处理更快？

我一生都无法找出这个问题的答案我编写了一个可以执行数百次繁重计算的脚本我有一个绝妙的主意将这些计算任务编写为 C 然后使用 Python 的 ctypes 与它们交互我心想我什至可以使用并行性进一步优化它我最初的方法是使用线程

随机推荐

MySQL数据库基本概念介绍

MySQL数据库一数据库的简介 1 数据 Data 2 表 3 数据库二数据库的概念 1 数据库管理系统 DBMS 2 数据库系统三数据库的发展史 1 第一代数据库 2 第二代数据库 3 第三代数据库四当前主流数据库介绍 1
搜索引擎solr系列---与java的springboot项目连接配置

java与solr连接调用查询的方式我知道的有两种 solrj方式这种方式写法较麻烦倒不是因为难就是简单的逻辑有时候为了一个业务写一堆代码所以solrj的这种方式还是比较灵活的能实现你需要的变态业务需求我发现它的一个小缺点
SpringBoot 3.x整合Fluent Mybatis极简流程

此为基础配置不包括其他高级配置需要其他高级配置请查阅官方文档 fluent mybatis特性总览 Wiki Gitee com https gitee com fluent mybatis fluent mybatis wikis f
软件测试学习路线

下图是某培训机构的课程概要同样的我们学习的路线基本如此下面主要总结一下注意因为自身原因所以我的方案是自己的自学方案仅作参考 1 测试基础知识一些测试必备文档以及概念要掌握这是最基本的 1 gt 测试分类按测试技术划分为
实验吧——加了料的报错注入

coding utf8 import requests import re def denglu username password 设置代理用于调试过程中抓包分析 proxies http http localhost 9008 htt
了解文件的随机读写，文件类别、文件缓冲区，文件操作知识点补充（接上文）

文件的操作老规矩笔记自取文件操作进阶笔记欢迎喜欢学习C C 的朋友互关一起努力文章目录文件的操作一文件的随机读写 1 fseek 定位文件指针函数 2 ftell 当前偏移量函数 3 rewind 返回起始位置函数二文本文
java操作seaweedfs

前置条件是seaweedfs服务已成功启动具体部署可参考我上篇文章SeaweedFS部署及使用指南首先导入pom依赖
Python Scrapy网络爬虫框架从入门到实战

Python Scrapy是一个强大的网络爬虫框架它提供了丰富的功能和灵活的扩展性使得爬取网页数据变得简单高效本文将介绍Scrapy框架的基本概念用法和实际案例帮助你快速上手和应用Scrapy进行数据抓取 Scrapy是一个基于P
SpringMVC源码总结 ViewResolver介绍

首先我们先看看ModelAndView中重要的View接口 View接口 Java代码 String getContentType Render the view given the specified model p The first
QT翻金币小游戏实现（三）

4 创建翻金币场景 4 1创建翻金币界面设计好主场景以及选择关卡界面以后就来到了最重要的一环翻金币首先还是创建一个cpp文件命名为PlayScene 第一步在选择关卡中声明PlayScene pScene NULL 方便后面使用点
模拟点击事件

一通过代码模拟用户对按钮的点击模拟按钮的点击方法一使用btn click模拟用户的点击 btn click 方法二两秒之后自动松开按钮 btn animateClick 2000 区别是方法一没有什么动画界面展示方法二有时间效
C#笔记9——基于TableLayoutPanel的多分屏、全屏程序

C 笔记9 基于TableLayoutPanel的多分屏全屏程序最近由于工作需要需要设置一个多分屏窗口以便于多分屏播放视频思考了一下大致思路如下用TableLayoutPanel来划分多个区域在每个区域中都放入一个Pictur
windows下composer切换php不同版本使用

D object cms gt D sf phpStudy 64 phpstudy pro Extensions php php7 3 4nts php exe D sf phpStudy 64 phpstudy pro Extension
A²B汽车音频总线介绍

A B使远程I S TDM成为可能 I S是飞利浦公司为数字音频设备之间的音频数据传输而制定的一种总线标准该总线专责于设备之间的数据传输广泛应用于各种多媒体系统 I C是两线式串行总线用于连接微控制器及其外围设备简单来说就是I C传
CANopen协议学习笔记

大纲前沿以问题为导向学习是最高效的本文主要讲述在学习Canopen协议中的一些疑惑点分享一些学习心得不讲协议本身的内容 1 主机和从机的概念 2 PDO和SDO的区别是什么 3 OD存在的意义是什么 4 心跳检测的意义 0x00
LeetCode 刷题 28

这一题第一反应是用map 或者栈但是仔细想想后觉得太麻烦了于是选用了双指针的方法 class Solution public int strStr string haystack string needle int hay 0 in
Jmeter测试linux服务器性能，报错：SampleSaveConfiguration.setFormatter(Ljava/text/DateFormat；)V

1 出现问题在执行命令 jmeter n t test jmx l log jtl 时报标题错误 2 原因 Jmeter的版本太高了不支持其中一个方法了 jmeter版本太高 setFormatter方法在3 1版本后不支持但是插件
python输出个数、给定一个n*n的矩阵m_简述Numpy

numpy的数组对象ndarray np array 生成一个ndarray数组 np array 输出成形式元素由空格分割轴 axis 保存数据的维度秩 rank 轴的数量 ndarray对象的属性属性说明 ndim 秩即轴
MAC之常用终端命令、隐藏/打开文件、查看磁盘占用情况、系统盘占用存储过大

1 从普通用户lambo切换到root用户 sudo i 2 从root用户切换到普通用户 exit 3 普通用户之间的切换 sudo 普通用户名 4 sudo su 直接进入sh 3 2 返回到之前的用户 exit 5 回到home目录
使用python进行图片的文字识别

使用python进行图片的文字识别文章目录使用python进行图片的文字识别安装 Tesseract OCR 安装过程配置系统的环境变量安装python的第三方库 Pytesseract库 Pillow库运行个demo 安装 T

使用python进行图片的文字识别

使用python进行图片的文字识别

文章目录

安装 Tesseract OCR

安装过程

配置系统的环境变量

安装python的第三方库

Pytesseract库

Pillow库

运行个demo

使用python进行图片的文字识别 的相关文章

随机推荐

热门标签

使用python进行图片的文字识别的相关文章