在python中将pdf转换为docx格式

2024-03-19

请问如何将pdf转换为docx。我尝试使用 pdfminer 转换为 html 来提取文本，但看起来仍然不够好。

pdf2docx

安装pdf2docx包点击here https://github.com/dothinking/pdf2docx

安装

克隆或下载 pdf2docx

 pip install pdf2docx
     or
 # download the package and install your environment
 python setup.py install

Option 1

from pdf2docx import Converter

pdf_file  = r'C:\Users\ABCD\Desktop\XYZ/Document1.pdf'# source file 
docx_file = r'C:\Users\ABCD\Desktop\XYZ/sample.docx'  # destination file

# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file, start=0, end=None)
cv.close()

#Output

Parsing Page 53: 53/53...
Creating Page 53: 53/53...
--------------------------------------------------
Terminated in 6.258919400000195s.

Option 2

from pdf2docx import parse

pdf_file  = r'C:\Users\ABCD\Desktop\XYZ/Document2.pdf' # source file
docx_file = r'C:\Users\ABCD\Desktop\XYZ/sample_2.docx' # destination file

# convert pdf to docx
parse(pdf_file, docx_file, start=0, end=None)

# output
Parsing Page 53: 53/53...
Creating Page 53: 53/53...
--------------------------------------------------
Terminated in 5.883666100000482s.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pdf

docx

pythondocx

pdfminer

在python中将pdf转换为docx格式的相关文章

如何在PDF文档之前显示加载屏幕

在我们的应用程序中我们有动态生成的 PDF 文档的链接链接看起来像这样主机 22 5 file 3136 pdf所以对于浏览器来说它就像一个静态的 pdf 文档单击链接时它会打开一个新窗口该窗口仅接收 PDF 文档无 HTML
从S3读取pdf对象

我正在尝试创建一个 lambda 函数它将访问上传到 s3 的 pdf 表单并删除输入到表单中的数据并将其发送到其他地方当我可以在本地下载文件时我就可以执行此操作因此下面的脚本可以工作并允许我将 pdf 中的数据读取到我的 pa
Java关闭PDF错误

我有这个java代码 try PDFTextStripper pdfs new PDFTextStripper String textOfPDF pdfs getText PDDocument load doc doc add new Fi
pdf2json 给我一个空白的输出 txt 文件？

我正在他们的 github 上关注他们的代码示例指南 https github com modesty pdf2json code example https github com modesty pdf2json code examp
如何为 iOS 构建 PoDoFo 库

这可能是这个问题的副本如何在 iOS 上使用 PoDoFo 库对 PDF 进行注释 https stackoverflow com questions 7643771 how can i use the podofo library for
使用 Node js 和 Express 提供 pdf 文件

所有的PDF文件都保存在服务器的文件系统中如何使文件可以在客户端下载对于前 app use pdfDownload function req res var pathToTheFile req body fileName readFil
使用 Python 从 PDF 中的物理坐标返回文本字符串

在过去的几个小时里我一直在与 Google 和 PDFMiner 的有限文档作斗争虽然我感觉很接近但我只是没有得到我需要的东西我已经经历过http www unixuser org euske python pdfminer htt
如何使用 jasper 从 jsp 生成 pdf 格式的报告

在我的应用程序中我可以连接到数据库并获取数组结果集并使用 JSP 代码迭代该数组并使用 HTML 在网页中显示报告我希望 HTML 网页中生成的报告可以以 PDF 格式导出并保存在某个 pdf 文件中请告诉我如何实现这样的技术来实现
如何使用 PHP 制作 pdf 文件

如何用 PHP 制作 PDF 文件我想要制作的是学生名单所以我想查询数据库获取信息并在用户单击生成学生列表时将其以 PDF 形式提供给用户你有两个不错的选择首先是用于操作 pdf 的标准 php 库 https www ph
如何使用 PHP 读写编辑 pptx/docx/xlsx 文件？

是否有库扩展可用于使用 PHP 有效处理 pptx docx xlsx 文件到目前为止我对 PPTX 文件更感兴趣据我所知这些文件格式 docx xlsx pptx 只是 zip 文件它们属于 Office Open XML OO
如何使非常宽的 grid.table 或 tableGrob 适合 pdf 页面？

我有一个相当宽的表格页面宽度的 4 3 我正在尝试使用 grid table 或 grid arrange 通过 tableGrob 将其打印到 pdf 文件中该表超出了页面边界并被剪裁有没有办法强制 grid table grid
如何查找pdf中文本的x,y位置

有没有工具可以查找 pdf 文件中文本内容的 X Y 位置 Docotic Pdf 库 http bitmiracle com pdf library 可以做到请参阅下面的 C 示例 using PdfDocument doc new P
如何在 R 中将包含符号的绘图写入 PDF？

我想在 R 中的箱形图的 x 轴上使用无穷大符号我想将其写入 PDF 文件我可以通过这样做来设置无穷大符号 names data 9 lt 但这让我在尝试编写时出现编码错误 conversion failure on in mbcsTo
如何使用 Python 将表格从 CSV 写入 PDF [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个CSV文件包含下表 users passwords company Admin test psw test cmp test
Windows API 代码包 - ShellFile 不生成 PDF 位图

使用之前堆栈溢出问题中的代码 System Drawing Bitmap image ShellFile f ShellFile FromFilePath fileLocation image f Thumbnail ExtraLargeB
我可以使用什么 C++ 库在 Windows 上将 PDF 转换为图像？

我正在开展一个需要分析图像的项目这些图像的主要来源是网络摄像头但最近我们被要求添加对上传文件和扫描仪的支持这在大多数情况下都很好只是他们希望我们能够使用 PDF 格式的文档我需要一个原始像素位图进行处理在 Mac 上我可以使用
如何使用 iText 对 pdf 进行数字签名？

如何使用 iText 签署 pdf 我正在经历这个LINK http itextpdf sourceforge net howtosign html但不了解 my private key pfx 我真的需要数字签名证书吗请澄清我提前致谢
将 Highcharts 导出为 PDF（使用 javascript 和本地服务器 - 无互联网连接）

我在我的应用程序中使用 Highcharts 没有任何互联网连接我的 html 页面上有多个图表我想生成一个包含该页面中所有图表的 PDF 报告我怎样才能做到这一点而不将数据发送到互联网上的任何服务器我将感谢您提供的任何帮助或任何示
PDF解析提取CheckBox字段值

我有一个 PDF 文档想要从 PDF 和 Chackbox 和单选按钮类型字段值中提取内容 PDF 文件的版本为 1 4 Acrobat 5 x 可以从网络浏览器生成 CheckBox appear such types in PDF 我
查找 PDF 文件中的文本位置

我有一个 PDF 文件我试图在 PDF 中查找特定文本并使用 Python 突出显示它我发现pypdf https pypi org project pypdf 哪个行突出显示 PDF 的一部分 https gist github co

随机推荐

相当于 De Bruijn LSB，但适用于 MSB

有谁知道类似于 De Bruijn 的 LSB 但针对 MSB 的算法吗或者确定 MSB 的最有效方法我知道 Log 2 Val 会这样做但我不知道这是否是最有效的方法我需要它的原因是我需要将小端转换为大端我知道这个的标准算法然
如何检查 PyTorch 是否正在使用 GPU？

如何检查 PyTorch 是否正在使用 GPU 这nvidia smi命令可以检测 GPU 活动但我想直接从 Python 脚本内部检查它这些功能应该有助于 gt gt gt import torch gt gt gt torch cu
在批处理和 VBS 混合中使用变量

This thread https stackoverflow com questions 9074476 is it possible to embed and execute vbscript within a batch file w
Boost.Asio安装问题

我已经使用 bjam install 安装了 boost 库但是当我编译程序时 include boost asio hpp int main return 0 出现此类错误 tmp ccVR3eeF o In function stat
虚拟化页表的工作原理

阅读有关虚拟化页表概念的内容其中部分页表放入虚拟内存中维基百科 https en wikipedia org wiki Page table Virtualized page table以及 Patterson 和 Hennessy 页
ExecutorService，如何等待所有任务完成

等待所有任务的最简单方法是什么ExecutorService完成我的任务主要是计算所以我只想运行大量作业每个核心一个现在我的设置如下所示 ExecutorService es Executors newFixedThreadPool
如何将 NSDate 对象设置为午夜？

我有一个NSDate对象我想将其设置为任意时间例如午夜以便我可以使用timeIntervalSince1970一致检索数据的功能无需担心时间when对象已创建我尝试过使用NSCalendar并使用一些 Objective C 方法
同构弦

给定两个字符串 s 和 t 确定它们是否同构如果 s 中的字符可以替换得到 t 则两个字符串是同构的所有出现的字符都必须替换为另一个字符同时保留字符的顺序任何两个字符都不能映射到同一个字符但一个字符可以映射到其自身例如给定 e
如何在magento中调用另一个动作？

是否可以在magento中调用另一个动作例如让我们考虑两种操作方法添加动作更新操作调用 addAction 时是否可以实际调用 updateAction 谢谢巴兰您可以进行转发例如 public function addAc
Objective-C 中的自动解析库 - [自动 XML/JSON 到对象转换]

Objective C 中是否有一个我可以在 iPhone 中使用的库在其中我可以提前告诉库这些标签应该在 xml 文件中出现然后该库会自动为我解析它并给我一个 NSDictionary 数组作为回报或类似的东西简而言之我正在寻找一
为什么本机 python 列表上的 for 循环比 numpy 数组上的 for 循环更快

我正在阅读介绍 numpy 的章节高性能Python并在我自己的计算机上使用了代码我无意中用 for 循环运行了 numpy 版本发现与本机 python 循环相比结果出奇地慢代码的简化版本如下其中我定义了一个值为 0 的二维数组
如何使用 Chrome 扩展程序阻止某些网站？

我正在为一个项目制作一个简单的 chrome 扩展我正在制作一个扩展程序来阻止某些 URL 社交媒体等以使学习更加高效我不太擅长JS 但我想学习我有一些想法也许它可以阻止网站或者只是在 div 中绘制一些内容来阻止其内容另外
如何设置PDF页眉的高度？

有谁知道如何设置生成的pdf中标题的高度
x64应用程序访问mdb数据库

我有一个应用程序需要在x64平台下构建我需要访问 mdb文件我所说的访问是指插入删除或更新数据库我在使用 Jet OLE db 和 ODBC 驱动程序时遇到问题对于 OLE db 它显示 Jet Oledb 未注册驱动程序和应用
Haskell 的全功能 CSV 解析器？

任何人都可以推荐一种解析 CSV 文件的方法其中包含以下选项设置单元格字段分隔符设置记录结尾行终止符为字段设置引号字符支持 UTF 8 字符串能够将内存中的 CSV 结构写回文件我确实尝试过 Text CSV 但它非常简单
D3 力向图添加新节点导致 x & y 为 NaN

当我单击一个节点时我希望向其中添加一个新节点它们都应该有标签我正在尝试构建同义词库可视化我对 D3 还很陌生所以如果您需要更详细地解释一些事情我深表歉意到目前为止这是我的代码 var width 960 var height
如何防止在 C# 中手动输入组合框

我有一个 C 表单它使用ComboBox 如何防止用户手动输入文本ComboBox in C this comboBoxType Font new System Drawing Font Arial 15 75F this comboBo
未调用 UIManagedDocument saveToURL finishHandler - 错误消息：“不允许读者访问该 URL。”

我有一个旧的应用程序使用UIManagedDocument与核心数据交互然而在 iOS 11 2 可能还有更早的 iOS 11 版本上saveToURL forSaveOperation completionHandler 方法似乎已
将文件扩展名与程序关联

我知道怎么做而且我去过http www codeproject com KB vb VBFileAssociation aspx http www codeproject com KB vb VBFileAssociation aspx前
在python中将pdf转换为docx格式

请问如何将pdf转换为docx 我尝试使用 pdfminer 转换为 html 来提取文本但看起来仍然不够好 pdf2docx 安装pdf2docx包点击here https github com dothinking pdf2docx

在python中将pdf转换为docx格式

在python中将pdf转换为docx格式 的相关文章

随机推荐

热门标签

在python中将pdf转换为docx格式的相关文章