使用 Python 将 DOCX 文件转换为文本文件

2023-12-14

我编写了以下代码将 docx 文件转换为文本文件。我在文本文件中打印的输出是整个文件的最后一段/部分，而不是完整的内容。代码如下：

from docx import Document
import io
import shutil

def convertDocxToText(path):
    for d in os.listdir(path):
        fileExtension=d.split(".")[-1]
        if fileExtension =="docx":
            docxFilename = path + d
            print(docxFilename)
            document = Document(docxFilename)


# for printing the complete document
            print('\nThe whole content of the document:->>>\n')
            for para in document.paragraphs:
                textFilename = path + d.split(".")[0] + ".txt"
                with io.open(textFilename,"w", encoding="utf-8") as textFile:
                    #textFile.write(unicode(para.text))
                    x=unicode(para.text)
                    print(x) //the complete content gets printed by this line
                    textFile.write((x)) #after writing the content to text file only last paragraph is copied.
                #textFile.write(para.text)

path= "/home/python/resumes/"
convertDocxToText(path)

针对上述问题的解决方案如下：

from docx import Document
import io
import shutil
import os

def convertDocxToText(path):
    for d in os.listdir(path):
        fileExtension=d.split(".")[-1]
        if fileExtension =="docx":
            docxFilename = path + d
            print(docxFilename)
            document = Document(docxFilename)
            textFilename = path + d.split(".")[0] + ".txt"
            with io.open(textFilename,"w", encoding="utf-8") as textFile:
                for para in document.paragraphs: 
                    textFile.write(unicode(para.text))

path= "/home/python/resumes/"
convertDocxToText(path)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

fileconversion

pythondocx

使用 Python 将 DOCX 文件转换为文本文件的相关文章

Python中Decimal类型的澄清

每个人都知道或者至少每个程序员都应该知道 http docs oracle com cd E19957 01 806 3568 ncg goldberg html 即使用float类型可能会导致精度错误然而在某些情况下精确的解决方
Python Popen 与 psexec 挂起 - 不良结果

我对 subprocess Popen 和我认为是管道的问题有疑问我有以下代码块从 cli 运行时 100 都不会出现问题 p subprocess Popen psexec serverName get cmd c ver echo
使用 python 进行串行数据记录

Intro 我需要编写一个小程序来实时读取串行数据并将其写入文本文件我在读取数据方面取得了一些进展但尚未成功地将这些信息存储在新文件中这是我的代码 from future import print function import se
如何迭代按值排序的 Python 字典？

我有一本字典比如 a 6 b 1 c 2 我想迭代一下by value 不是通过键换句话说 b 1 c 2 a 6 最直接的方法是什么 sorted dictionary items key lambda x x 1 对于那些讨厌 la
python 模拟第三方模块

我正在尝试测试一些处理推文的类我使用 Sixohsix twitter 来处理 Twitter API 我有一个类充当 Twitter 类的外观我的想法是模拟实际的 Sixohsix 类通过随机生成新推文或从数据库检索它们来模拟推文的
在 Python distutils 中从 setup.py 查找脚本目录的正确方法？

我正在分发一个具有以下结构的包 mymodule mymodule init py mymodule code py scripts script1 py scripts script2 py The mymodule的子目录mymodul
if 语句未命中中的 continue 断点

在下面的代码中两者a and b是生成器函数的输出并且可以评估为None或者有一个值 def testBehaviour self a None b 5 while True if not a or not b continue pri
如何创建一个语句来打印以特定单词开头的单词？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案如何在 python 中打印从特定字母开始的单词而不使用函数而是使用方法或循环 1 我有一个字符串想要打印以 m 开头的单词 S
为什么Python的curses中escape键有延迟？

In the Python curses module I have observed that there is a roughly 1 second delay between pressing the esc key and getc
在Python中调整图像大小

我有一张尺寸为 288 352 的图像我想将其大小调整为 160 240 我尝试了以下代码 im imread abc png img im resize 160 240 Image ANTIALIAS 但它给出了一个错误TypeErro
Seaborn Pairplot 图例不显示颜色

我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常但由于某种原因图例不会显示相关的颜色我无法找到解决方案因此如果有人有任何建议请告诉我 x sns pairplot stats2 hue
在 Pandas 中使用正则表达式的多种模式

我是Python编程的初学者我正在探索正则表达式我正在尝试从描述列中提取一个单词数据库名称我无法给出多个正则表达式模式请参阅下面的描述和代码描述 Summary AD1 Low free DATA space in data
无法在 osx-arm64 上安装 Python 3.7

我正在尝试使用 Conda 创建一个带有 Python 3 7 的新环境例如 conda create n qnn python 3 7 我收到以下错误 Collecting package metadata current repoda
创建嵌套字典单行

您好我有三个列表我想使用一行创建一个三级嵌套字典 i e l1 a b l2 1 2 3 l3 d e 我想创建以下嵌套字典 nd a 1 d 0 e 0 2 d 0 e 0 3 d 0 e 0 b a 1 d 0 e 0 2 d 0
如何在 OSX 上安装 numpy 和 scipy？

我是 Mac 新手请耐心等待我现在使用的是雪豹 10 6 4 我想安装numpy和scipy 所以我从他们的官方网站下载了python2 6 numpy和scipy dmg文件但是我在导入 numpy 时遇到问题 Library F
当鼠标悬停在上面时，intellisense vscode 不显示参数或文档

我正在尝试将整个工作流程从 Eclipse 和 Jupyter Notebook 迁移到 VS Code 我安装了 python 扩展它应该带有 Intellisense 但它只是部分更糟糕我在输入句点后收到建议但当将鼠标悬停在其上方
在Python中按属性获取对象列表中的索引

我有具有属性 id 的对象列表我想找到具有特定 id 的对象的索引我写了这样的东西 index 1 for i in range len my list if my list i id specific id index i break
如何读取Python字节码？

我很难理解 Python 的字节码及其dis module import dis def func x 1 dis dis func 上述代码在解释器中输入时会产生以下输出 0 LOAD CONST 1 1 3 STORE FAST 0 x
Elastic Beanstalk 中的 enum34 问题

我正在尝试在 Elastic Beanstalk 中设置 django 环境当我尝试通过requirements txt 文件安装时我遇到了python3 6 问题 File opt python run venv bin pip li
检查字典键是否有空值

我有以下字典 dict1 city name yass region zipcode phone address tehsil planet mars 我正在尝试创建一个基于 dict1 的新字典但是它不会包含带有空字符串的键它不会包

随机推荐

iFrame 由于协议、域和端口必须匹配而被阻止

我收到以下错误阻止了具有原点的帧https
对于繁重的计算，Fortran 是否比 C 更容易优化？

我时不时地读到对于繁重的计算 Fortran 比 C 更快或者可以更快这是真的吗我必须承认我对Fortran几乎不了解但是到目前为止我所看到的Fortran代码并没有表明该语言具有C所没有的功能如果是真的请告诉我原因请不要告诉
mysql 搜索不带空格

我的数据库中有一个名称列表我必须找到在 url 中传递的名称的 id 我的问题是我在 url 中传递的名称中不会有空格而保存的记录将在数据库中当我搜索数据库时我没有找到任何记录例如数据库记录是我的名字而我将在 url 中传
原型中的对象作为引用继承

我想使用原型继承新的对象实例测试用例 var MyObj function MyObj prototype objName I want this to be a different object for each instance of
Java 如何决定何时导入？

为什么Java不需要导入Integer String等类而需要导入其他类有一个隐含的导入java lang 来自Java规范编译单元自动访问其包中声明的所有类型并自动导入预定义包中声明的所有公共类型java lang
在验证属性时将两个正则表达式合并为一个

我有两个正则表达式 RegularExpression ErrorMessage Something 验证仅包含空格的字符串不包含任何其他字符前任 length 7 RegularExpression ErrorMessage some
在 Powershell 电子邮件中设置 HTML 字体颜色

我有一个 powershell 脚本将为密码将在这是我当前正在使用的代码我还要补充一点这是我第一次尝试在 powershell 中编写脚本因此如果我长期做事我会接受一些输入 Import ActiveDirectory modu
使用 Inno Setup 安装的应用程序的 Windows 10 开始图标上下文菜单中缺少卸载选项

我使用 Inno Setup 5 5 9 创建了一个安装文件然后在 Windows 10 计算机上运行该文件我唯一的问题与卸载程序有关我可以使用控制面板来卸载但是在开始菜单中当我右键单击启动程序的快捷方式时上下文菜单中没有选
pyenchant 在 Mac OS X 上找不到字典文件

我在运行 Lion 的 MacbookPro 上安装 pyenchant 时遇到问题我使用 homebrew 和 pip 来安装 enchant 和 pyenchant 自制安装附魔 pip 安装 pyenchant 我还下载了一本英语词
使用乔达时间将一个时区转换为另一时区

有一个表格有一个国家地区下拉菜单用户将选择国家地区然后有一个时区下拉菜单用户将选择用户选择的国家地区可用的时区然后用户将输入本地日期例如 2014 年 12 月 26 日和时间 23 11 24 小时时间此输入的日期和时
OpenSSL 的链接错误[重复]

这个问题在这里已经有答案了我已经安装了 OpenSSL 我只想使用 OpenSSL 运行一个程序这是我的程序摘自here include
jQuery 对象：缓存还是不缓存？

我的 Javascript JS 代码遇到了一些麻烦因为有时我需要在同一个函数中多次访问相同的 DOM 元素还提供了一些推理here 从性能的角度来看是一次性创建一个 jQuery 对象然后缓存它更好还是随意创建同一个 jQuery
使用 LINQ 从两个列表中选择不同的元素？

List
在 WPF 中使用图片或图标代替 DataGridCheckBoxColumn

我想在选中时将 DataGridColumn 内部的复选框更改为图像在未选中时将其更改为图像我该怎么办 Ps 我的DataGridCheckBoxColumn定义如下
PyQT4 WheelEvent？如何检测车轮是否被使用过？

我想在 PyQT 中找出如何设置鼠标滚轮事件我需要它以便我可以将其附加到 Qscroll 区域我使用的代码工作正常但大小是硬编码的我需要它以某种方式动态调整具体取决于滚轮鼠标上的使用方式就像我向上滑动鼠标滚轮时一样我的框
限制选中的复选框数量

我有一个带有几个复选框的表单我的表单中有三类复选框我需要限制最多三个复选框per类别我使用了这个脚本但它限制每个表单三个复选框 jQuery function var max 3 var checkboxes jQuery inpu
通过 SMTP 发送邮件 Gmail Oauth2 问题

我可以通过以下方式对 SMTP 进行身份验证谷歌的例子但现在的问题是我无法发送邮件每当我尝试发送邮件时都会收到以下错误 com sun mail smtp SMTPSendFailedException 530 5 5 1 Authe
如何从 Kivy 中的另一个小部件访问某些小部件属性？

好吧假设我希望某个小部件中的标签使用另一个小部件内标签中的文本
消除移动 Safari 中点击事件的 300 毫秒延迟

我读过移动版 Safari 在点击事件上有 300 毫秒的延迟从点击链接按钮到事件触发延迟的原因是等待用户是否打算双击但从 UX 角度来看等待 300 毫秒通常是不可取的一种解决方案要消除这 300 毫秒的延迟可以使用 jQue
使用 Python 将 DOCX 文件转换为文本文件

我编写了以下代码将 docx 文件转换为文本文件我在文本文件中打印的输出是整个文件的最后一段部分而不是完整的内容代码如下 from docx import Document import io import shutil def c

使用 Python 将 DOCX 文件转换为文本文件

使用 Python 将 DOCX 文件转换为文本文件 的相关文章

随机推荐

热门标签

使用 Python 将 DOCX 文件转换为文本文件的相关文章