PyPdf不逐行读取pdf文本

2024-01-04

我正在使用 PyPdf 从 pdf 文件中读取文本。然而 pyPDF 不会逐行读取 pdf 中的文本，它以某种随意的方式读取。当 pdf 中不存在新行时，将新行放在某处。

import PyPDF2
pdf_path = r'C:\Users\PDFExample\Desktop\Temp\sample.pdf'
pdfFileObj = open(pdf_path, 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
page_nos = pdfReader.numPages
for i in range(page_nos):
        # Creating a page object
        pageObj = pdfReader.getPage(i)
        # Printing Page Number
        print("Page No: ",i)
        # Extracting text from page
        # And splitting it into chunks of lines
        text = pageObj.extractText().split("  ")
        # Finally the lines are stored into list
        # For iterating over list a loop is used
        for i in range(len(text)):
                # Printing the line
                # Lines are seprated using "\n"
                print(text[i],end="\n\n")
        print()

这给我的内容是

Our Ref :
21
1
8
88
1
11
5 
 
Name: 
S
ky Blue
 
 
Ref 1 :
1
2
-
34
-
56789
-
2021/2 
 
Ref 2:
F2021004
444
 

Amount: 
$
1
00
.
11
...

而预期的是

Our Ref :2118881115 Name: Sky Blue Ref 1 :12-34-56789-2021/2 Ref 2:F2021004444
Amount: $100.11 Total Paid:$0.00 Balance: $100.11 Date of A/C: 01/08/2021 Date Received: 10/12/2021
Last Paid: Amt Last Paid: A/C Status: CLOSED Collector : Sunny Jane

这是 pdf 文件的链接https://pdfhost.io/v/eCiktZR2d_sample2 https://pdfhost.io/v/eCiktZR2d_sample2

我尝试了一个名为 pdfplumber 的不同包。它能够按照我想要的方式逐行阅读 pdf。

1.安装pdfplumber包

pip install pdfplumber

2. 获取文本并将其存储在某个容器中

import pdfplumber 
pdf_text = None 
with pdfplumber.open(pdf_path) as pdf:
    first_page = pdf.pages[0]
    pdf_text  = first_page.extract_text()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pdf

pypdf

PyPdf不逐行读取pdf文本的相关文章

获取 .wav 文件长度或持续时间

我正在寻找一种方法来找出 python 中音频文件 wav 的持续时间到目前为止我已经了解了 pythonwave图书馆 mutagen pymedia pymad我无法获取 wav 文件的持续时间 Pymad给了我持续时间但它不一致
Virtualenv 在 OS X Yosemite 上失败并出现 OSError

我最近更新到 OSX Yosemite 现在无法使用virtualenv pip 每当我执行 virtualenv env 它抛出一个 OSError Command Users administrator ux env bin pytho
是否有一种直接的方法可以使用 iTextSharp 将一个 PDF 文档附加到另一个 PDF 文档？

我在网上搜索了有关如何执行此操作的示例我发现有些人似乎比他们需要的更多地参与其中所以我的问题是使用 iTextSharp 是否有一种相当简洁的方法将一个 PDF 文档附加到另一个 PDF 文档最好这不会涉及第三个文件只需打开第一个
将 numpy 数组合并为单个 int

numpy 数组怎么可以这样 10 22 37 45 转换为单个 int32 数字如下所示 10223745 这可以工作 gt gt gt int join map str 10 22 37 45 10223745 基本上你使用map s
反编译Python 3.9.2的PYC文件[重复]

这个问题在这里已经有答案了目前我有一个 3 9 2 版本的 python 的 PYC 文件 P S 这适用于所有 3 9 及更高版本我正在尝试反编译 PYC 文件但它显示错误因为 uncompyle6 或者更确切地说新版本 de
使用 Django 将文件异步上传到 Amazon S3

我使用此文件存储引擎在上传文件时将文件存储到 Amazon S3 http code welldev org django storages wiki Home http code welldev org django storages w
Matplotlib：如何有效地将大量线段着色为独立渐变

Python 绘图库如何有效地将大量线段着色为独立渐变已经阅读this https stackoverflow com questions 8500700 how to plot a gradient color line in ma
如何确保 re.findall() 停止在正确的位置？

这是我的代码 a import re re findall r lt title gt lt title gt a 结果是 title aaa
类型错误：需要二进制或 unicode 字符串，得到 618.0

I ve been trying to implement this ML Linear Model into my dataset https www tensorflow org tutorials estimator linear L
Arcpy 模数在 Pycharm 中不显示

如何将 Arcpy 集成到 Pycharm 中我尝试通过导入模块但它没有显示我确实知道该模块仅适用于 2 x python arcpy 在 PyPi Python 包索引上不可用因此无法通过 pip 安装要使用 arcpy 您需要
如何使用scrapy检查网站是否支持http、htts和www前缀

我正在使用 scrapy 来检查某些网站是否工作正常当我使用http example com https example com or http www example com 当我创建 scrapy 请求时它工作正常例如在我的pa
从 Flask 运行 NPM 构建

我有一个 React 前端我想在与我的 python 后端 API 相同的源上提供服务我正在尝试使用 Flask 来实现此目的但我遇到了 Flask 找不到我的静态文件的问题我的前端构建是用生成的npm run build in s
pandas 相当于 np.where

np where具有向量化 if else 的语义类似于 Apache Spark 的when otherwise数据帧方法我知道我可以使用np where on pandas Series but pandas通常定义自己的 API
是否需要关闭没有引用它们的文件？

作为一个完全的编程初学者我试图理解打开和关闭文件的基本概念我正在做的一项练习是创建一个脚本允许我将内容从一个文件复制到另一个文件 in file open from file indata in file read out file
使用 Python 将连续日期分组在一起

Given dates datetime 2014 10 11 datetime 2014 10 1 datetime 2014 10 2 datetime 2014 10 3 datetime 2014 10 5 datetime 201
Django 管理器链接

我想知道是否有可能如果可以的话如何将多个管理器链接在一起以生成受两个单独管理器影响的查询集我将解释我正在研究的具体示例我有多个抽象模型类用于为其他模型提供小型的特定功能其中两个模型是DeleteMixin 和GlobalMix
如何使用 python 定位和读取 Data Matrix 代码

我正在尝试读取微管底部的数据矩阵条形码我试过libdmtx http libdmtx sourceforge net 它有 python 绑定当矩阵的点是方形时工作得相当好但当矩阵的点是圆形时工作得更糟如下所示另一个复杂问题是在某
IndexError - 具有匀称形状的笛卡尔 PolygonPatch

我曾经使用 shapely 制作一个圆圈并将其绘制在之前填充的图上这曾经工作得很好最近我收到索引错误我将代码分解为最简单的操作但它甚至无法执行最简单的循环 import descartes import shapely geome
如何（安全）将 Python 对象发送到我的 Flask API？

我目前正在尝试构建一个 Flask Web API 它能够在 POST 请求中接收 python 对象我使用 Python 3 7 1 创建请求使用 Python 2 7 运行 API 该 API 设置为在我的本地计算机上运行我试图发
用于插入或替换 URL 参数的 Django 模板标签

有人知道 Django 模板标签可以获取当前路径和查询字符串并插入或替换查询字符串值吗例如向 some custom path q how now brown cow page 3 filter person 发出请求电话 urlpar

随机推荐

如何使用 FTP 命令移动文件

源文件的路径是 public html upload 64 SomeMusic mp3 我想将它移动到这条路径 public html archive 2011 05 64 SomeMusic mp3 我如何使用 FTP 命令执行此操作在
WPF：选择时为文本框添加标签

我想创建一个看起来像视觉工作室的简单设计器具体来说我希望我的项目具有与 VS 中相同的行为当未选择它们时会显示一个简单的标签文本块当它们被选择时一个文本框可以让我编辑值实现这一目标的最佳方法是什么谢谢为 TextBox
如何在合并排序期间“暂停”以可视化 JS p5js

我正在使用 p5 js 开发排序可视化工具我需要知道是否可以减慢合并排序以便可以更慢地绘制它我目前正在尝试使用下面的睡眠功能来减慢它们的合并功能但我得到未捕获的类型错误 a slice 不是函数我只是犯了一个愚蠢的错误还是我错
模板和 while 循环

我正在制作一个简单的模板系统无法将代码保留在 PHP 文件中并将其输出到 html 文件中这很烦人在模板中包含此内容不太好 h1 h1 p p 有什么方法可以将代码保留在 PHP 文件中吗 Thanks
如何修改matplotlib-venn中的字体大小

我有以下维恩图 from matplotlib import pyplot as plt from matplotlib venn import venn3 venn3 circles set1 set A B C D set2 set B
已安装的 Python 模块 - Python 找不到它们

这是一个初学者python安装问题这是我第一次尝试安装和调用包我有pip安装了我尝试安装两个模块 numpy and pandas 在终端中我运行了以下命令 sudo pip install numpy sudo pip insta
我在哪里可以获得 delphi 或 python 的免费 GSM 库/组件？

我在哪里可以获得好的免费 G SM 库Delphi or Python 我可以使用哪些库在我的应用程序上发送和接收短信 Gath 免费且开源AsyncPro http sourceforge net projects tpapro gt 不
为离线Web应用程序存储图像数据（客户端存储数据库）

我有一个使用 appcaching 的离线 Web 应用程序我需要提供大约 10MB 20MB 的数据它将保存客户端主要由 PNG 图像文件组成操作如下 Web 应用程序下载并安装在 appcache 中使用清单 Web 应用程
如何使用Python将霍夫曼编码写入文件？

我创建了一个 Python 脚本来使用霍夫曼算法压缩文本假设我有以下字符串 string The quick brown fox jumps over the lazy dog 运行我的算法会返回以下位 result 011111001
四边形上的输出纹理不正确

我正在尝试使用 freetype 在我的应用程序中显示文本起初我认为这个内置函数这对于用于绘制文本的库来说是很自然的但只有一个显示符号的功能然后我决定将这些字符一一放入纹理中但我再次感到失望所有指南一个纹理都使用单个图像可能
React Native：无法构造变压器：错误：无法创建长度超过 0x1fffffe8 个字符的字符串

包 json name project version 0 0 1 private true scripts android react native run android ios react native run ios start r
char*/字符串连接而不复制？

我想在 C 或 C 中连接 2 个字符串而不需要新的内存分配和复制是否可以可能的C代码 char str1 char malloc 100 char str2 char malloc 50 char str3 some code th
如何使用PHP连接到as400

我正在尝试使用以下代码将我的 AS400 与 V5R3 和 PHP 连接
如何将打开的窗体定位在 C# Windows 窗体中的特定位置？

The Location窗体中的属性设置为 0 0 属性窗口但是该表单不会在指定位置打开我错过了什么吗你需要设置StartPosition手动使表单将起始位置设置为中的值Location财产 public Form1 Initial
在 Python 中将字符串分配给 ID

我正在使用 python 读取一个文本文件其格式为每列中的值可以是数字或字符串当这些值是字符串时我需要分配该字符串的唯一 ID 在同一列下的所有字符串中都是唯一的如果同一字符串出现在同一列下的其他位置则必须分配相同的 ID 什么是
Retrofit 2 同步调用错误处理 4xx 错误

我正在使用 android priority jobqueue 并使用改造来同步调用我的其余 api 但我不确定如何处理诸如 401 Unauthorized 错误之类的错误我会发回 json 来说明错误进行异步调用时很简单但我正在调
htonl() 是否会更改 BIG ENDIAN 机器上的字节顺序？

从字面上看对 htonl 感到困惑在很多链接中我发现执行 htonl 的代码是 define HTONL n unsigned long n 0xFF lt lt 24 unsigned long n 0xFF00 lt lt 8 u
在 MySQL 中插入十六进制值

我使用 Java 创建了一个 SQL 数据库我创建了一个表其中有两列第一列是一个递增的大整数第二列我尝试将其定义为 char varchar 和二进制但我仍然没有获得所需的功能假设我尝试存储一个十六进制数字0a进入 char 列
我如何判断我是否正在转发到复制构造函数？

如果我正在编写一个将参数转发给构造函数的通用函数有没有办法判断它是否是复制构造函数本质上我想做的是 template
PyPdf不逐行读取pdf文本

我正在使用 PyPdf 从 pdf 文件中读取文本然而 pyPDF 不会逐行读取 pdf 中的文本它以某种随意的方式读取当 pdf 中不存在新行时将新行放在某处 import PyPDF2 pdf path r C Users PD

PyPdf不逐行读取pdf文本

PyPdf不逐行读取pdf文本 的相关文章

随机推荐

热门标签

PyPdf不逐行读取pdf文本的相关文章