用Python读取PDF并转换为PDF中的文本

2023-12-03

我已经使用此代码将 pdf 转换为文本。

input1 = '//Home//Sai Krishna Dubagunta.pdf'
output = '//Home//Me.txt'
os.system(("pdftotext %s %s") %( input1, output))

我已经创建了主目录并将源文件粘贴到其中。

我得到的输出是

并且没有创建带有 .txt 的文件。哪里有问题？

有多种 Python 包可以使用 Python 从 PDF 中提取文本。你可以看到速度/质量基准.

作为维护者pypdf and PyPDF2我有偏见，但我会推荐pypdf供人们开始。它是纯 python 和 BSD 3 条款许可证。这应该对大多数人都有效。 pypdf 还可以对 PDF 文件执行更多操作（例如转换）。

如果您对 C 依赖性感到满意并且不想修改 PDF，请给出pypdfium2一枪。 pypdfium2 速度非常快，并且具有令人惊叹的提取质量。

我之前推荐过 Popplers pdftotext。不要用那个。它的质量比 PDFium/PyPDF2 差。

Tika 和 PyMuPDF 的工作方式与 PDFium 类似，但它们也具有非 python 依赖性。由于商业许可，PyMuPDF 可能不适合您。

我不会使用 pdfminer / pdfminer.six / pdfplumber/ pdftotext / borb / PyPDF2 / PyPDF3 / PyPDF4。

pypdf：纯Python

安装：pip install pypdf (更多说明)

from pypdf import PdfReader

reader = PdfReader("example.pdf")
text = ""
for page in reader.pages:
    text += page.extract_text() + "\n"

PDFium：高质量且速度非常快，但具有 C 依赖性

安装：pip install pypdfium2

import pypdfium2 as pdfium

text = ""
pdf = pdfium.PdfDocument(data)
for i in range(len(pdf)):
    page = pdf.get_page(i)
    textpage = page.get_textpage()
    text += textpage.get_text()
    text += "\n"
    [g.close() for g in (textpage, page)]
pdf.close()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pdftotext

用Python读取PDF并转换为PDF中的文本的相关文章

有没有一种方法可以将python对象直接存储在mongoDB中而不需要序列化它们

我在某处读到过您可以使用 BSON 将 python 对象更具体地说是字典作为二进制文件存储在 MongoDB 中但是现在我找不到任何与此相关的文档有人知道具体如何做到这一点吗没有办法在不序列化的情况下将对象存储在文件数据库
从 SHAP 值中获取特征重要性

我想要获得重要功能的数据框通过下面的代码我得到了 shap values 但我不确定这些值的含义是什么在我的 df 中有 142 个特征和 67 个实验但得到了一个带有 ca 的数组 2500 个值 explainer shap T
检测到通过 ChromeDriver 启动的 Chrome 浏览器

我正在尝试在 python 中使用 selenium chromedriver 来访问 www mouser co uk 网站然而从第一次拍摄开始它就被检测为机器人有人对此有解释吗此后我使用的代码 options Options
从 Python 下载/安装 Windows 更新

我正在编写一个脚本来自动安装 Windows 更新我可以将其部署在多台计算机上这样我就不必担心手动更新它们我想用 Python 编写这个但找不到任何关于如何完成此操作的信息我需要知道如何搜索更新下载更新并从 python 脚本安
从sklearn PCA获取特征值和向量

如何获取 PCA 应用程序的特征值和特征向量 from sklearn decomposition import PCA clf PCA 0 98 whiten True converse 98 variance X train clf f
Pandas dataframe：每批行的操作

我有一个熊猫数据框df我想计算每批行的一些统计信息例如假设我有一个batch size 200000 对于每批batch sizerows 我想要一列的唯一值的数量ID我的数据框我怎样才能做这样的事情呢这是我想要的一个例子 prin
使用 NLTK 在 Python 中获取大量名词（或形容词）；或 Python Mad Libs

Like 这个问题 https stackoverflow com questions 7439555 noun adjective etc word lists or dictionaries common words 我有兴趣按词性获取
“一旦获取切片就无法更新查询”。最佳实践？

由于我的项目的性质我发现自己不断地从查询集中取出切片如下所示 Thread objects filter board requested board id order by updatedate 10 但这给我带来了实际对我选择的元素进
PyTorch 给出 cuda 运行时错误

我对我的代码做了一些小小的修改以便它不使用 DataParallel and DistributedDataParallel 代码如下 import argparse import os import shutil import time
Python tkinter.filedialog Askfolder 干扰 clr

我主要在 Spyder 中工作构建需要弹出文件夹或文件浏览窗口的脚本下面的代码在spyder中完美运行在 Pycharm 中 askopenfilename工作良好同时askdirectory什么都不做卡住了但是如果在调试模式
Python中列表中两个连续元素的平均值

我有一个偶数个浮点数的列表 2 34 3 45 4 56 1 23 2 34 7 89 我的任务是计算 1 和 2 个元素 3 和 4 5 和 6 等元素的平均值在 Python 中执行此操作的快捷方法是什么 data 2 34 3 45
根据 Pandas 中的列表对多列进行排序

感谢有关如何根据 pandas 中的倍数列表对给定多列进行排序的任何提示如下所示 import pandas as pd sort a a d e sort b s1 s3 s6 sort c t1 t2 t3 df pd DataFra
CNTK 抱怨 LSTM 中的动态轴

我正在尝试在 CNTK 中实现 LSTM 使用 Python 来对序列进行分类 Input 特征是固定长度的数字序列时间序列标签是 one hot 值的向量 Network input input variable input dim
Pandas：如何将数据框插入 Clickhouse

我正在尝试将 Pandas 数据框插入 Clickhouse 这是我的代码 import pandas import sqlalchemy as sa uri clickhouse default localhost default ch
在相同任务上，Keras 比 TensorFlow 慢

我正在使用 Python 运行斩首 DCNN 本例中为 Inception V3 来获取图像特征我使用的是 Anaconda Py3 6 和 Windows7 使用 TensorFlow 时我将会话保存在变量中感谢 jdehesa 并
字符串列表，获取n个元素的公共子串，Python

我的问题可能类似于this https stackoverflow com questions 37514193 count the number of occurrences of n length not given string in
计算互相关函数？

In R 我在用ccf or acf计算成对互相关函数以便我可以找出哪个移位给我带来最大值从它的外观来看 R给我一个标准化的值序列 Python 的 scipy 中是否有类似的东西或者我应该使用fft模块目前我正在这样做 xcor
如何使用Python保存“完整的网页”而不仅仅是基本的html

我正在使用以下代码来使用 Python 保存网页 import urllib import sys from bs4 import BeautifulSoup url http www vodafone de privat tarife r
使用Multiprocessing和Pool时如何访问全局变量？

我试图避免将变量冗余地传递到dataList e g 1 globalDict 2 globalDict 3 globalDict 并在全球范围内使用它们 global globalDict然而在下面的代码中并不是这样做的解决方案是否有
tkinter：打开一个带有按钮提示的新窗口[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案用户如何按下 tkinter GUI 中的按钮来打开新窗口我只需要非常简单的解决方案如果代码也能被解释那就太好了这

随机推荐

使用 virtualenvwrapper-win 传递不同 python 版本时出错

我安装了 python 3 4 和 2 7 它们的路径是 C python34 和 C python27 在尝试使用 python 2 7 创建 virtualenv 时出现以下错误 C Development gt mkvirtuale
在 iOS 应用程序中从 Firebase 获取发送推送通知的历史记录

我有一个与 Firebase Cloud Messaging 集成的 iOS 应用程序用于发送推送通知我知道 Firebase 会保存所有发送通知的历史记录有没有办法让运行应用程序的每个特定设备获取自己的已发送通知历史记录我需要在客
从 .txt 文件读取并执行 Shellcode

从 C 总线测试 Shellcode 错误 10 上面是我之前的问题涉及当 shell 代码位于源代码内部时从 c 程序中执行 shellcode Carl Norum 解决了这个问题原因是内存保护我有一个不同的问题但很相似我不
是否可以在 C 编译期间计算处理器值的阶乘值？

define num 7 user can change this define size I want this value factorial of num to be computed during compile time int
在 Compact Framework 中获取文件版本信息

我有一些代码需要能够找到程序集的版本号给定一个字符串说明它所在的位置我无法让它工作 Assembly assembly Assembly LoadFrom Program Files Microsoft SQL Server Compa
solr - 将字段设置为默认搜索字段

以下查询对我来说效果很好 http 8983 solr vault select q VersionComments 3AWhite 返回版本注释包含 White 的所有文档我尝试省略字段名称并将其作为默认值如下所示在 solr 配置
使用 java swing 对 JTabbedPane 中的选项卡进行着色

我正在尝试更改选项卡的背景颜色JTabbedPane 我试过JTabbedPane setBackgroudAt 0 Color GRAY and JTabbedPane setBackgroud Color GRAY 前景也是如此但什么
为什么使用 loff_t *offp 而不是直接 filp->f_pos 用法的原因

以下函数取自LDD ssize t read struct file filp char user buff size t count loff t offp ssize t write struct file filp const cha
从android工作区文件夹调用文件路径

基本上我右键单击了我的项目名称并成功创建了一个名为 pdfs 的新文件夹我想在这里预加载一些pdf文件那么我如何从我的mainactivity类中调用这个path somepdffile pdf import java io File
单个 Dataframe 单元格中系列的最大值

我有一个数据框其中每一行都包含一个系列single column col1 row1 34 55 11 8 row2 36 76 69 6 row3 77 31 40 55 row4 51 41 26 30 我想获得该系列中每个值的最大值
在Python中添加字典中缺失的键

我有一个字典列表 L 0 1 1 7 2 3 4 8 0 3 2 6 1 2 4 6 0 2 3 2 如您所见字典的长度不同我需要的是将缺少的键值添加到每个字典中使它们具有相同的长度 L1 0 1 1 7 2 3 4 8 0 3 1
部署到 Azure 网站时，什么可能导致 EvoPDF“无法呈现 html”异常

将 EvoPDF 用于 Net Web 应用程序可以在本地运行但是一旦部署到 Microsoft Azure 网站它就会抛出一个通用异常无法呈现 html 堆栈跟踪 Exception Could not render the HTM
带有超链接的 PHP/MySQL 表

我有 2 个 PHP 表单一个显示事件列表另一个显示每个特定事件的结果在包含事件列表的页面上我希望可以创建一个超链接来访问每个单独事件的结果例如在事件页面上我单击第 2 行的超链接该链接会将我带到结果页面其中包含该
JavaFx2 IllegalStateException 与 Label.setText

为什么当我使用这样的简单线程时 Thread t new Thread new Runnable public void run while true idLabel setText Date toString Thread sleep 1
Vimeo 播放器 api - 使用 javascript 播放视频

我正在尝试使用 javascript jquery 函数开始播放视频我从复制示例维梅奥网站并将其上传到服务器但它不起作用
使用 IntSummaryStatistics 计算多个字段的平均值

我正在尝试使用 Java 8 流创建单个 CarData 对象该对象由列表中所有 CarData 字段的平均值组成getCars CarData new CarData CarData getBodyWeight returns Inte
Symfony 忽略 web/ 中的目录

在 symfony 项目中有什么方法可以排除目录被处理例如我想在 mysite com other app 中运行一个单独的 php 程序如何排除 symfony 控制器处理 web other app 文件夹我尝试过使用 Rew
SQL Server 添加字符串值时列名无效

我是 SQL Server 新手我已经像这样创建了我的表 CREATE TABLE Accidents Id INT NOT NULL PRIMARY KEY IDENTITY GUID VARCHAR 100 Latitude VARC
在 Android 上从存储执行时，executeOfflineCommand 会跳过命令

我必须在程序中按顺序执行开始和完成命令并在最后同步所有内容因此我首先按顺序插入离线命令并假设它们将以相同的顺序执行为此我使用 List 和 Iterator 这里的问题是完成命令将在中间的一些奇怪的情况下错过执行并且
用Python读取PDF并转换为PDF中的文本

我已经使用此代码将 pdf 转换为文本 input1 Home Sai Krishna Dubagunta pdf output Home Me txt os system pdftotext s s input1 output 我已经创建

热门标签