在Python中从pdf文件中读取和提取文本时单词之间没有空格？

2024-02-18

社区成员您好，

我想从一本以 .pdf 作为文件扩展名的电子书中提取所有文本。我才知道python有一个包PyPDF2采取必要的行动。不知何故，我尝试过并能够提取文本，但它会导致提取的单词之间的空间不适当，有时结果是 2-3 个单词合并的结果。

此外，我想提取从第 3 页开始的文本，因为初始页面涉及封面页和前言。另外，我不想包含最后 5 页，因为它包含术语表和索引。

是否存在其他方法来读取没有加密的 .pdf 二进制文件？

到目前为止我尝试过的代码片段如下。

import PyPDF2
def Read():
    pdfFileObj = open('book1.pdf','rb')
    pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
    #discerning the number of pages will allow us to parse through all #the pages
    num_pages = pdfReader.numPages
    count = 0
    global text
    text = []
    while(count < num_pages):
         pageObj = pdfReader.getPage(count)
         count +=1
         text += pageObj.extractText().split()
         print(text)
 Read()

这是一个可能的解决方案：

import PyPDF2

def Read(startPage, endPage):
    global text
    text = []
    cleanText = ""
    pdfFileObj = open('myTest2.pdf', 'rb')
    pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
    while startPage <= endPage:
        pageObj = pdfReader.getPage(startPage)
        text += pageObj.extractText()
        startPage += 1
    pdfFileObj.close()
    for myWord in text:
        if myWord != '\n':
            cleanText += myWord
    text = cleanText.split()
    print(text)

Read(0,0)

Read() 参数 --> Read(要读取的第一页，要读取的最后一页)

Note:读取第一页是从 0 开始，而不是从 1 开始（例如在数组中）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pdf

pypdf

在Python中从pdf文件中读取和提取文本时单词之间没有空格？的相关文章

使用 matplotlib 从“列表列表”绘制 3D 曲面

我已经搜索了一些虽然我可以找到许多有用的网格网格示例但没有一个清楚地表明我如何将列表列表中的数据转换为可接受的形式以适应我所讨论的各种方式当谈到 numpy matplotlib 以及我所看到的建议的术语和步骤顺序时我有点迷失我
如何在python 3.7中生成条形码

我正在使用 python 3 7 为了生成条形码我尝试使用安装 pyBarcode 库pip install pyBarcode 但它显示以下错误找不到满足 pyBarcode 要求的版本来自版本找不到 pyBarcode 的匹配分
opencv水印周围的轮廓

我想在图像中的水印周围画一个框我已经提取了水印并找到了轮廓但是不会在水印周围绘制轮廓轮廓是在我的整个图像上绘制的请帮我提供正确的代码轮廓坐标的输出为 array 0 0 0 634 450 634 450 0 dtype int
为什么删除临时文件时出现WindowsError？

我创建了一个临时文件向创建的文件添加了一些数据已保存然后尝试将其删除但我越来越WindowsError 编辑后我已关闭该文件如何检查哪个其他进程正在访问该文件 C Documents and Settings Administra
Pandas：GroupBy 到 DataFrame

参考这个关于 groupby 到 dataframe 的非常流行的问题 https stackoverflow com questions 10373660 converting a pandas groupby object to dat
如何检查python xlrd库中的excel文件是否有效

有什么办法与xlrd库来检查您使用的文件是否是有效的 Excel 文件我知道还有其他库可以检查文件头我可以使用文件扩展名检查但为了多平台性我想知道是否有任何我可以使用的功能xlrd库本身在尝试打开文件时可能会返回类似 false 的内
pyspark 数据框中的自定义排序

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序我理想地寻找 pandas 分类数据类型提供的功能因此给定一个数据集Speed列可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
工作日重新订购 Pandas 系列

使用 Pandas 我提取了一个 CSV 文件然后创建了一系列数据来找出一周中哪几天崩溃最多 crashes by day bc DAY OF WEEK value counts 然后我将其绘制出来但当然它按照与该系列相同的排名顺序绘制
Python3.0 - 标记化和取消标记化

我正在使用类似于以下简化脚本的内容来解析较大文件中的 python 片段 import io import tokenize src foo bar src bytes src encode src io BytesIO src src l
Pandas：如果单元格包含特定文本则删除行

pandas 中的这段代码不起作用如果该列包含提供的任何文本数字我希望它删除该行目前我只能在单元格与我的代码中传递的确切文本匹配时才能使其工作因为它只删除显示 Fin 的单元格不是金融或金融 df2 df df Team Fin
结构差异 sudo() run('sudo 命令')

我想知道函数之间有什么区别sudo 和函数run sudo u user smth 文档上有 sudo 在所有运行方式上都是相同的除了它总是换行调用 sudo 程序中的给定命令以提供超级用户特权但有几次 sudo cmd 提示我输入
使用 python 绘制正值小提琴图

我发现小提琴图信息丰富且有用我使用 python 库 seaborn 然而当应用于正值时它们几乎总是在低端显示负值我发现这确实具有误导性尤其是在处理现实数据集时在seaborn的官方文档中https seaborn pydata
使用Python计算目录的大小？

在我重新发明这个特殊的轮子之前有没有人有一个很好的例程来使用 Python 计算目录的大小如果例程能够很好地以 Mb Gb 等格式格式化大小那就太好了这会遍历所有子目录总结文件大小 import os def get size s
Geodjango距离查询未检索到正确的结果

我正在尝试根据地理位置的接近程度来检索一些帖子正如您在代码中看到的我正在使用 GeoDjango 并且代码在视图中执行问题是距离过滤器似乎被完全忽略了当我检查查询集上的距离时我得到了预期距离 1m 和 18km 但 18km 的帖
使用“默认”环境变量启动新的子进程

我正在编写一个构建脚本来解析依赖的共享库及其共享库等这些共享库在正常情况下是不存在的PATH环境变量为了使构建过程正常工作让编译器找到这些库 PATH已更改为包含这些库的目录构建过程是这样的加载器脚本更改 PATH gt 基于
将seaborn.palplot轴添加到现有图形中以可视化不同调色板

将seaborn人物添加到子图中是usually https seaborn pydata org examples cubehelix palette html创建图形时通过传递 ax 来完成例如 sns kdeplot x y cma
SocketIO + Flask 检测断开连接

我在这里有一个不同的问题但意识到它可以简化为如何检测客户端何时从页面断开连接关闭其页面或单击链接换句话说套接字连接关闭我想制作一个带有更新用户列表的聊天应用程序并且我在 Python 上使用 Flask 当用户连接时浏览器发
Django 与谷歌图表

我试图让谷歌图表显示在我的页面上但我不知道如何将值从 django 视图传递到 javascript 以便我可以绘制图表姜戈代码 array Year Sales Expenses 2004 1000 400 2005 1170 460
双击打开 ipython 笔记本

相关文章通过双击 osx 打开 ipython 笔记本 https stackoverflow com questions 16158893 open an ipython notebook via double click on osx
多个对象以某种方式相互干扰[原始版本]

我有一个神经网络 NN 当应用于单个数据集时它可以完美地工作但是如果我想在一组数据上运行神经网络然后创建一个新的神经网络实例以在不同的数据集甚至再次同一组数据上运行那么新实例将产生完全错误的预测例如对 XOR 模式进行训练

随机推荐

下标需要接口“NSArray”的大小，这在非稳定 ABI 中不是恒定的

我正在尝试使用 ASIHTTPRequest 将信息发送到服务器并设置如下的发布值 for int i 0 i lt 13 i request setPostValue propertyValues i forKey propertyKe
存储 Sprite Kit 级别数据

我正在开发一个项目其中屏幕上会出现一组目标目标应该同时出现一定数量并且每次出现之间有一定的延迟我的问题是如何正确存储该游戏的关卡数据我正在考虑使用 csv 文件来存储关卡数据目标类型位置延迟等但我想知道是否有更好的方法来做
从 Joomla 1.5.26 升级/迁移到 Joomla 3.0.1

我有一个 joomla 1 5 26 网站想要升级到 Joomla 3 0 1 那可能吗如果可以步骤是什么我正在寻找像 JUpgrade 这样的安装程序来执行此操作我意识到这是一个两步过程 A 从 Joomla 1 5 26 迁移
在ios中缓存视频

我有以下方法在 AVMediaPlayerController 上播放视频 void sendRequestForVideo NSString VideoStr http www ebookfrenzy com ios book movie
我可以在哪里存储（和管理）应用程序许可证信息？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我正在开发一个 Windows 应用程序这需要用户注册才能使用它现在我将许可证信息作为文件存储在 APpData 中但删除该文
我可以在运行 PHP 的 64 位系统上将 PHP_INT_SIZE 定义为 4 个字节吗？

我正在使用 PHP 5 3 在我的 32 位系统上 INT 的大小 print PHP INT MAX PHP INT MAX n print PHP INT SIZE PHP INT SIZE bytes PHP INT SIZE 8 b
Google应用程序脚本仅在运行完成后更新文档的更改。我可以强制刷新之前吗？

我想替换谷歌文档中的一段文本然后将其转换为PDF 问题是文档仅在脚本结束后更新更改因此当我运行以下代码时 PDF 尚未完成更改有没有办法在脚本运行时强制它更新 var doc open DocumentApp openById f
Java Web 应用程序应该在哪里存储其数据？

我的 Java Web 应用程序 myapp war 通过将其放入webappsUbuntu 10 04 上 Tomcat 的目录该应用程序需要将一些数据保存在文件中但是运行 Tomcat 的用户 tomcat6 对主目录没有写权限 u
如何在 Dockerfile 中启动另一个 bash

我想按照本教程在容器 CentOS 6 9 中将 GCC 从 4 4 7 更新到 4 7 2如何在 CentOS 上升级 GCC http ask xmodulo com upgrade gcc centos html 在教程的最后作者使
透明圆圈黑色

我正在尝试用 Alpha 制作透明圆圈和黑色周围的所有内容我正在使用这段代码但不知何故它不起作用 Gdx gl glEnable GL20 GL BLEND Gdx gl glBlendFunc GL20 GL DST COLOR GL
里氏替换原理的例子是什么？

我听说里氏替换原则 LSP 是面向对象设计的基本原则它是什么它的使用示例有哪些说明 LSP 的一个很好的例子由鲍勃叔叔在我最近听到的播客中给出是有时在自然语言中听起来正确的东西在代码中却不太有效在数学中一个Square is
rbind 列表列表中的数据帧

我有一个列表如下所示 x state year 其中的每个元素都是一个数据框单独访问它们不是问题但是我想跨多个列表重新绑定数据帧更具体地说我希望输出尽可能多的数据帧即每年 rbind 所有状态数据帧换句话说我想将所有状态数
将 KeyDown 键转换为一个字符串 C#

我有磁卡读卡器当用户刷卡时它会模拟键盘输入当我的 WPF 窗口处于聚焦状态时我需要处理键盘输入一个字符串的情况我可以获得这个键入的键列表但我不知道如何将它们转换为一个字符串 private void Window KeyDown
在土耳其语文本中大写嵌入的英语单词的预期结果是什么？

我知道土耳其语 I 的问题其中 i 的大写在土耳其语和英语中是不同的但是土耳其语通常在土耳其语文本中嵌入外来单词例如英文名称吗例如假设有人将文本 Microsoft Windows 嵌入到其他土耳其文本中我想将文本大写英语
类不是类模板

我收到错误类不是类模板知道为什么吗 template
如何使用 Puppeteer 从 XHR 请求获取正文/json 响应[重复]

这个问题在这里已经有答案了我想从使用 Puppeteer 抓取的网站获取 JSON 数据但我不知道如何取回请求正文这是我尝试过的 const puppeteer require puppeteer const results asyn
如何使用 Windows Server 2019 在 IIS 10 上托管 Node JS 应用程序

我已经配置了 iisnode 所需的所有内容但是当我浏览该网站时http localhost 后端 http localhost Backend 后端是 iis 上托管的站点名称然后什么也没有发生页面继续加载我的网络配置
ASP.NET 发布尝试复制不存在的文件

我尝试在 VS2010 中发布 ASP NET 项目但收到以下错误将文件 bin CKFinder pdb 复制到 obj Release Package PackageTmp bin CKFinder pdb 失败找不到文件 bin
将 .htaccess HeaderName 应用到所有较低级别？

我正在使用以下 htaccess 来整理我的目录列表 Options Indexes IndexOptions IgnoreCase FancyIndexing FoldersFirst NameWidth DescriptionWidth
在Python中从pdf文件中读取和提取文本时单词之间没有空格？

社区成员您好我想从一本以 pdf 作为文件扩展名的电子书中提取所有文本我才知道python有一个包PyPDF2采取必要的行动不知何故我尝试过并能够提取文本但它会导致提取的单词之间的空间不适当有时结果是 2 3 个单词合并的结果

在Python中从pdf文件中读取和提取文本时单词之间没有空格？

在Python中从pdf文件中读取和提取文本时单词之间没有空格？ 的相关文章

随机推荐

热门标签

在Python中从pdf文件中读取和提取文本时单词之间没有空格？的相关文章