python ocr 识别中文pdf_pytesseract识别PDF文件中的文字（OCR）

2023-05-16

前言：由于要利用一些比较老的文献中的数据，手工输入费时费力，于是乎找到了下面的方法。如果不差钱可以使用Adobe Acrobat Reader中的文字识别，也可以尝试其中的试用版。下面的方法完全室开源免费的方式。

1. 准备工作：安装程序、软件包、配置环境变量

平台：win10, python 3.7.3, spyder3.3.3

安装软件包(用conda)：pdf2image, pytesseract, numpy

配置环境变量：安装完tesseract后将其安装路径添加到path环境变量。方法自己搜

2. 过程简介

(1) 用pdf2image中的convert_from_path将pdf文件转化为ppm文件(图片)

(2)用numpy.array将ppm文件转化为三维矩阵

(3) 用pytesseract.image_to_string识别图像矩阵中的文字

(4)输出文本信息，并进行校对，可以借助word等软件进行拼写检测

3. 实操

代码如下

import numpy as np

import pytesseract

from pdf2image import convert_from_path

def pdf_ocr(fname, **kwargs):

images = convert_from_path(fname, **kwargs)

text = ''

for img in images:

img = np.array(img)

text += pytesseract.image_to_string(img)

return text

fname = 'example.pdf'

# text = pdf_ocr(fname, first_page=7, last_page=8)

text = pdf_ocr(fname)

print(text)

4. 参考资料

吐槽一下知乎：发表文章时只有两个选项：1. 虚构；2. 不声明原创。

有时候明明时原创，而且不是虚构。要想声明原创就必须选则虚构——瞎编的。难道原创的都是瞎编的吗？

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

OCR

pdf

pytesseract

python ocr 识别中文pdf_pytesseract识别PDF文件中的文字（OCR）的相关文章

Kivy - 文本换行工作错误

我正在尝试在 Kivy 1 8 0 应用程序中换行文本当没有太多文字时一切正常但如果文本很长并且窗口不是很大它只是剪切文本这是示例代码 vbox BoxLayout orientation vertical size hint y
boto3 资源（例如 DynamoDB.Table）的类型注释

The boto3库提供了几种返回资源的工厂方法例如 dynamo boto3 resource dynamodb Table os environ DYNAMODB TABLE 我想注释这些资源以便我可以获得更好的类型检查和完成但我
将 numpy 数组写入文本文件的速度

我需要将一个非常高的两列数组写入文本文件而且速度非常慢我发现如果我将数组改造成更宽的数组写入速度会快得多例如 import time import numpy as np dataMat1 np random rand 1000
使用 Django Rest 保存 Base64ImageField 类型会将其保存为原始图像。如何将其转换为普通图像

我的模型中有 5 个图像字段 imageS imageS imageS imageS 和 imageE 我正在尝试按以下方式保存图像图像的类型Base64ImageField images imageA imageB imageC ima
如何在 PyCharm 4.5.2 中使用 PyPy 作为标准/默认解释器？

如何在 PyCharm 4 5 2 中使用 PyPy 作为标准默认解释器一切都在 Ubunutu 14 10 下运行并且 pypy 已经安装您可以在项目的设置下进行配置这个官方文档直接涵盖了 https www jetbrains
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
动态 __init_subclass__ 方法的参数绑定

我正在尝试让类装饰器工作装饰器会添加一个 init subclass 方法到它所应用的类但是当该方法动态添加到类中时第一个参数不会绑定到子类对象为什么会发生这种情况举个例子这是可行的下面的静态代码是我试图最终得到的示例 cl
Python多处理错误“ForkAwareLocal”对象没有属性“连接”

下面是我的代码我面临着多处理问题我看到这个问题之前已经被问过我已经尝试过这些解决方案但它似乎不起作用有人可以帮我吗 from multiprocessing import Pool Manager Class X def init
Python 惰性迭代器

我试图了解迭代器表达式如何以及何时被求值以下似乎是一个懒惰的表达 g i for i in range 1000 if i 3 i 2 然而这个在构造上失败了 g line strip for line in open xxx r if
如何使用 paramiko 查看（日志）文件传输进度？

我正在使用 Paramiko 的 SFTPClient 在主机之间传输文件我希望我的脚本打印文件传输进度类似于使用 scp 看到的输出 scp my file user host user host password my file 1
使用 numpy 在 python 中执行最大方差旋转

我正在研究矩阵的主成分分析我已经找到了如下所示的组件矩阵 A np array 0 73465832 0 24819766 0 32045055 0 3728976 0 58628043 0 63433607 0 72617152 0 5
Pandas style.bar 颜色基于条件？

如何渲染其中一列的 Pandas dfstyle bar color属性是根据某些条件计算的 Example df style bar subset before after color ff781c vmin 0 0 vmax 1 0 而
将文本注释到轴并对齐为圆

我正在尝试在轴上绘制文本并将该文本与圆对齐更准确地说有一些具有不同坐标 x y 的点位于该圆内并使用以下命令创建 ax scatter x y s 100 我想用圆圈连接并标记每个点 Cnameb 文本的坐标由 xp yp 定义因此
解析根元素内元素之间的 XML 文本

我正在尝试用 Python 解析 XML 以下是 XML 结构的示例 a aaaa1 b bbbb b aaaa2 a
如何将回溯/sys.exc_info() 值保存在变量中？

我想将错误名称和回溯详细信息保存到变量中这是我的尝试 import sys try try print x except Exception ex raise NameError except Exception er print 0 s
如何在 robobrowser-python 中发出 POST 请求

http robobrowser readthedocs org en latest api html http robobrowser readthedocs org en latest api html 我正在尝试使用 APIbrows
更改 Python Cmd 模块处理自动完成的方式

我有一个 Cmd 控制台设置为自动完成 Magic the Gathering 收藏管理系统的卡牌名称它使用文本参数在数据库中查询卡片并使用结果自动完成建议卡片然而这些卡片名称有多个单词 Cmd 会从last到行尾的空间例如
Python 通过从现有 csv 文件中过滤选定的行来写入新的 csv 文件

只是一个问题我试图将 csv 文件中的选定行写入新的 csv 文件但出现错误我试图读取的 test csv 文件是这样的两列 2013 9 1 2013 10 2 2013 11 3 2013 12 4 2014 1 5 2014
python sklearn中的fit方法

我问自己关于 sklearn 中拟合方法的各种问题问题1 当我这样做时 from sklearn decomposition import TruncatedSVD model TruncatedSVD svd 1 model fit X
使用 urllib 编码时保持 url 参数有序

我正在尝试用 python 模拟 get 请求我有一个参数字典并使用 urllib urlencode 对它们进行 urlencode 我注意到虽然字典的形式是 k1 v1 k2 v2 k3 v3 urlencoding 后参数的顺序切

随机推荐

java有关线程的说法错误的是_下面关于Java中线程的说法不正确的是( )

下面关于Java中线程的说法不正确的是答 xff1a 调用Thread类的sleep 方法可终止一个线程对象从造字角度分析河是形声字安是字颖是字寸是字答 xff1a 会意形声指事具有清肝热平肝阳祛风明目
计算机主板等级指标,转载一篇主板文章，教你认识三大厂主板分级

该楼层疑似违规已被系统折叠隐藏此楼查看此楼华硕rog主板和tuf主板这两个分级有什么区别 xff1f 一文看懂来源 xff1a 科技新闻网技嘉和微星已经在前两篇讲到了 xff0c 技嘉的主板自成一系的分级 xff0c 整体可以看成3
JSSDK公众号微信分享功能

微信公众平台支持前端网页 xff0c 点击右上角的 xff0c 可以选择分享到朋友圈分享给好友 QQ等微信功能分享我在项目中添加分享到朋友圈 xff0c 分享好友的功能的实现即图一所示的效果实现的效果为图二所示图一图二先要在项
python数值模拟、甲乙两人相约_计算编程-Python：Python 3.6数值模拟的温和介绍-Programming For Computations - Python: A Gentle In...

上传于 2020年2月27日 10 23 40次下载 3634次围观评分 xff1a 4 5 5 标题 title xff1a Programming For Computations Python A Gentle Introducti
《计算机导论》专业课程的知识总结,计算机导论知识点

计算机导论知识点 1 1 什么是计算机学科 xff1f 主要涉及哪几个领域 xff1f 计算机科学与技术是研究信息过程并用以表达此过程的信息结构和规则及其在信息处理系统中实现的学科计算机科学与技术研究的主要对象是现代计算机及其相关的现象
pythonfor循环加2_使用Numba时如何并行化这个Python for循环

感谢您的量子更新丹尼尔以下几行可能难以接受但请相信我还有更多的事情需要考虑我研究过HPC 并行计算问题这些问题的矩阵大小为N TB N gt 10和他们稀疏的伴奏所以一些经验可能对你的进一步观点有用警告 xff1a 不要指望
405服务器响应失败,服务器返回HTTP响应代码：405

我需要从第三方Web应用程序UI获取内容 xff0c 但在登录后 xff0c 站点会重定向到许多页面我不了解如何从上次打开的页面检索数据目前我接收的in readLine 方法如果我使用 OPTIONS 而不是GET则返回null 如果
python36.lib,python3.6.1环境配置出现Requirement already up-to-date: pip in c:\python36\lib\site-packages决解...

python3 6 1环境配置出现Requirement already up to date pip in c python36 lib site packages决解方案 xff0c 本文转载于 xff1a http 本文转载于 xff
ssl_connect error 5_[译]5个技巧：避免React Hooks 常见问题

译 5个技巧 xff1a 避免React Hooks 常见问题原文 xff1a https kentcdodds com blog react hooks pitfalls 在这篇文章里 xff0c 我们来探索下 React Hooks
python空字典怎么定义_python dict如何定义

1 字典的定义字典的格式 xff1a 字典名 61 key1 value1 key2 value2 字典是无序的 xff0c 是可变的数据类型字典的key不能是可变的数据类型列表字典字典的key是不能重复的 xff0c 但valu
ensp删除静态路由命令_华为路由器配置静态路由&默认路由

实验要求 xff1a 1 PC1在LAN1中 xff0c PC2在LAN2中 xff0c 配置静态路由实现两个LAN中的PC能够通信 xff1b 2 去掉静态路由 xff0c 配置默认路由使PC1与PC2能够通信 xff1b 1 基本配置R
fiddler怎么变成中文_Windows10系统英文怎么改为中文

一需求分析 Windows10系统英文怎么改为中文 xff0c 公司刚发下来的笔记本电脑 xff0c 公司人事买的时候 xff0c 买成了英文版本 xff0c 不是中文版本 xff0c 如何将电脑系统更换成为中文版本二解决办法 1 查
https开头的网址是什么意思_超级通俗的计算机网络（一）从https://www.zhihu.com/开始...

打开浏览器 xff0c 输入网址一敲回车 xff0c 你想看的内容就呈现在了屏幕上小时候听大忽悠们说 xff0c 银行的ATM机里面坐着一个人 xff0c 取钱的时候他数好了把钱给你按照这个逻辑 xff0c 那肯定是有人刷刷刷不停的在画
JS使用工具函数

1 校验数据类型 export const typeOf 61 function obj return Object prototype toString call obj slice 8 1 toLowerCase 示例代码 typeOf
cenots7 安装mysql_install.php

WeEngine System Copyright c 2014 WE7 CC WeEngine is NOT a free software it under the license terms visited http www we7
nidec服务器开机显示off,Nidec Servo GentleTyphoon 120mm 外壳风扇D1225C12B5AP-15 1850 RPM 3pin...

Legendary fans Construction is very solid this is a heavy fan No frame flex and the blades are very rigid Rotor housing
lol重连不显示重新连接服务器,win10lol重新连接无法连接服务器重试该怎么才能解决...

关于win10lol重新连接无法连接服务器重试该怎么才能解决 xff1f 很多玩家在玩lol的时候会遇到无法连接服务器的问题 xff0c 可是 xff0c 网络有没有出现问题 xff0c 这个情况可能就是因为网络lsp不稳定导致的 xff0
电话3plus服务器显示英文,MyBatisPlus3.x中使用代码生成器(全注释)

场景 MyBaitsPlus3 x与2 x是不一样的这里使用3 0 1版本官方文档 https mp baomidou com guide generator html 这里在IDEA上的SpringBoot项目中进行代码生成测试实现
php查询结果数组和对象,ThinkPHP5 select出来的结果是个对象？居然还可以以数组形式访问数据？...

目录目录前言 TP5中的select方法为什么可以这么操作总结思考前言在使用TP5的过程中 xff0c 我们会发现 xff0c 使用select方法查询数据库中的数据后dump出来的结果是对应模型的对象其中该对象有一个pro
python ocr 识别中文pdf_pytesseract识别PDF文件中的文字（OCR）

前言 xff1a 由于要利用一些比较老的文献中的数据 xff0c 手工输入费时费力 xff0c 于是乎找到了下面的方法如果不差钱可以使用Adobe Acrobat Reader中的文字识别 xff0c 也可以尝试其中的试用版下面的方法完

python ocr 识别中文pdf_pytesseract识别PDF文件中的文字（OCR）

python ocr 识别中文pdf_pytesseract识别PDF文件中的文字（OCR） 的相关文章

随机推荐

热门标签

python ocr 识别中文pdf_pytesseract识别PDF文件中的文字（OCR）的相关文章