Python3 - 无法读取 docx、odt 文件 - UnicodeDecodeError：“utf-8”编解码器无法解码位置 10 中的字节 0xea：无效的连续字节

2024-01-10

我正在尝试将大 docx 文件拆分为小文件。为此，当读取文件时python3.6使用以下代码。

with open('h.docx', 'r') as f:
    a = f.read()

它抛出这个错误。

Traceback (most recent call last):
  File "<stdin>", line 2, in <module>
  File "/usr/local/lib/python3.6/codecs.py", line 321, in decode
    (result, consumed) = self._buffer_decode(data, self.errors, final)
  UnicodeDecodeError: 'utf-8' codec can't decode byte 0xea in position 
  10: invalid continuation byte

h.docx 是使用 LibreOffice Calc 创建的，只需'hello world'作为内容。我可以在 Python 2.7 中成功读取此内容，没有任何错误。

I tried

with open('h.docx', 'r', encoding='latin-1') as f:
    a = f.read()

这样我可以毫无错误地读取文件。但是当写入另一个文件时，原始内容就会丢失。

也尝试过errors='surrogateescape'，但是当写入另一个文件时，原始内容会丢失。

不是真正的答案，但评论太长了。你所做的只是无意义的：你试图读取“.docx”文件，就好像它是一个文本文件一样not。它是一种复杂的格式，其中多个 xml 文件（可能还有其他文件...）连接成一个 zip 文件。您甚至不应该考虑处理这样的文件by hand unless:

细微的改变，例如用另一个单词替换一个单词
只读操作，例如研究特定字符串
你想写一个docx处理包（祝你好运）

即使这些也不是简单的操作。

什么是可能的：

当您仅将文件视为不透明内容时，将其作为二进制文件处理，例如通过网络连接发送它
使用专用库，例如python-docx https://pypi.python.org/pypi/python-docx
在Windows下，使用Word的自动化界面让word本身处理文件（comtypes https://pypi.python.org/pypi/comtypes可以在这里提供帮助）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

file

encoding

UTF8

Decode

Python3 - 无法读取 docx、odt 文件 - UnicodeDecodeError：“utf-8”编解码器无法解码位置 10 中的字节 0xea：无效的连续字节的相关文章

如何将人物传奇带到前台？

我有一系列子图其中每个子图都有一个图例我想在每个子图之外与相邻子图重叠问题在于图例位于其自己的图的顶部但位于相邻图的下方 Legend 不将 zorder 作为参数所以我不知道如何解决这个问题这是我使用过的代码 import
TCP打孔问题

我尝试使用 Python 3 中概述的原则为防火墙编写一个基本的 TCP 打孔器本文 http www bford info pub net p2pnat index html 不过我无法连接任何东西这是代码 usr bin pytho
Python实时读取串口数据

我正在使用 Python 中的脚本通过串行端口以 2Mbps 的速度从 PIC 微控制器收集数据 PIC 在 2Mbps 下完美定时工作 FTDI USB 串行端口在 2Mbps 下工作也很好均通过示波器验证我每秒发送消息大小约为 1
python中嵌套字典值的总和

我有一本这样的字典 data 11L a 2 b 1 a 2 b 3 22L a 3 b 2 a 2 b 5 a 4 b 2 a 1 b 5 a 1 b 0 33L a 1 b 2 a 3 b 5 a 5 b 2 a 1 b 3 a 1 b
为什么我会得到“ufunc 'multiply' did not contains a loop with Signature Matching types dtype('S32') dtype('S32') dtype('S32')”，其值来自 raw_

我正在尝试创建一个非常简单的程序它将绘制一个抛物线其中v是速度 a是加速度和x是时间用户将输入值v and a then v and a and x将决定y 我试图用这个来做到这一点 x np linspace 0 9 10 a ra
将数字转换为整数列表[重复]

这个问题在这里已经有答案了我该如何写magic下面的函数 gt gt gt num 123 gt gt gt lst magic num gt gt gt gt gt gt print lst type lst 1 2 3
Python，将字典存储在数据库中

在数据库中存储和检索 python 字典的最佳方法是什么如果您对使用传统 SQL 数据库例如 MySQL 不是特别感兴趣您可以研究非结构化文档数据库其中文档自然映射到 python 字典例如MongoDB http www mon
完全定制的Python帮助用法

我正在尝试使用 Python 创建完全自定义的帮助用法我计划将其导入到许多我想要具有风格一致性的程序中但遇到了一些麻烦我不知道为什么我的描述忽略换行符尝试过和我无法让出现在 ARGS 行的换行符之后显然它们坐在自己的行
从网站上抓取数字和详细信息的数据

我想从网站上抓取联系电话以及快递服务的相应详细信息我无法从所有快递服务中获取联系电话和其他详细信息例如姓名地址和评级我分析的数据位于脚本标签中请提出修复此问题的建议 import requests import pandas as
模拟类：Mock() 还是 patch()？

我在用mock http www voidspace org uk python mock index html使用Python 想知道这两种方法中哪一种更好阅读更Pythonic 方法一只需创建一个模拟对象并使用它代码如下 def
保存游戏最高分？

我使用 pygame 在 python 中制作了一个非常简单的游戏分数取决于玩家达到的级别我将级别作为变量称为score 我想在游戏开始或结束时显示顶级我会更乐意显示多个分数但我见过的所有其他线程都太复杂我无法理解所以请保持简单
Tkinter 如何根据此组合框自动更新第二个组合框

我在 Tkinter Python 中遇到了组合框更新的问题我有两个组合框组合框A with values A B C and 组合框B 我想要的是当值A在组合框中选择A然后在组合框中B显示值 1 2 3 当值B在组合框中选择A然后在
收到“/：未找到事件。”使用 PyCharm 远程调试器时

当我使用 PyCharm 通过 ssh 进行远程调试时tcsh shell 服务器很多时候它停止工作并显示未找到事件更具体地说我在 pycharm 调试控制台中遇到以下内容 ssh username hostserver 22 p
Python itertools groupby 中令人不安的奇怪行为/错误？

我在用itertools groupby解析一个短的制表符分隔的文本文件文本文件有几列我想做的就是对具有特定值的所有条目进行分组x在特定的列中下面的代码对名为的列执行此操作name2 寻找变量中的值x 我尝试使用以下方法来做到这一点c
如何连接多个字符串？ [复制]

这个问题在这里已经有答案了如何将 stringList 中的所有字符串合并为一个而不打印它例如 s joinStrings very hot day returns string print s Veryhotday 感觉有点倒退但是
对 Python 列表元素进行分组

我有一个 python 列表如下所示 my list 25 1 0 65 25 3 0 63 25 2 0 62 50 3 0 65 50 2 0 63 50 1 0 62 我想根据以下规则对它们进行排序 1 gt 0 65 0 62 l
我的代码哪里有泄漏？

下面是我的代码它打开一个 XML 文件 old xml 过滤无效字符并写入另一个 XML 文件 abc xml 最后我将再次加载 XML abc xml 当执行以下行时出现异常表示 xml 文件被另一个进程使用 xDoc Load
Python 对列表中的值求和（如果它存在于另一个列表中）

我有一个列表和一组 a list 1 2 2 1 1 1 b list 1 2 我正在寻找对应 b list 中的项目并将它们从 a list 中的值相加以便输出为 1 3 2 1 我尝试过的 sum 0 for i in a list
float() 参数必须是字符串或数字，而不是“时间戳”

我无法使 scilearn 与日期时间系列一起工作找到了这篇文章但对我没有帮助 Pandas 类型错误 float 参数必须是字符串或数字 https stackoverflow com questions 41256626 panda
如何继承并重写 django 模型类来创建 listOfStringsField？

我想为 django 模型创建一个新类型的字段它基本上是一个 ListOfStrings 因此在您的模型代码中您将具有以下内容模型 py from django db import models class ListOfString

随机推荐

算法的复杂性

我正在准备考试看到这个问题所以我做了以下这是正确的吗 while 循环的运行时间为 O log3n for 循环的运行时间约为 O n some math log2n 所以因为我有线性的减号所以我说整个方法的运行时间为 O nlog
PHP无法加载动态库'/usr/lib64/php/modules/module.so

php version PHP 警告 PHP 启动无法加载动态库 usr lib64 php modules module so usr lib64 php modules module so 无法打开共享对象文件第 0 行的未知中没有
如何正确组织包/模块依赖树？

早上好我目前正在编写一个 python 库目前模块和类的部署方式是无组织的没有合理的设计当我接近更正式的版本时我想重新组织类和模块以便它们具有更好的整体设计我画了一个导入依赖关系图并计划按层级别聚合类另外我正在考虑对类
将对象转换为 JSON 字符串

jQuery parseJSON name John 将字符串表示形式转换为对象但我想要相反对象将被转换为 JSON 字符串我有一个链接http www devcurry com 2010 03 convert javascript
使用 Firebase 登录时“访问钥匙串时发生错误”

背景我正在使用 Firebase 进行应用程序登录我正在使用通过电子邮件地址登录的功能开始使用新的 xCode beta 并将代码更新到 Swift 3 后开始出现错误您可以在此处查看问题的原型 https bitbucket or
模型类型的强类型 ASP.NET Controller.View() 方法

没有强类型 View 方法可以返回 ActionResult 所以假设我有 class Edit ViewPage
在不使用显式密钥文件的情况下从 Google Cloud Function 生成 Cloud Storage 签名 URL

我想创建一个到存储桶的预签名上传 URL 并希望避免显式引用 json 密钥目前我正在尝试使用默认 App Engine 服务帐户来执行此操作我正在尝试跟随这个答案 https stackoverflow com a 64245028
Play Framework @routes.Assets.at 编译错误

我正在使用 Play 2 4 0 并且我一直在尝试按照主页上的教程进行操作 https playframework com https playframework com 这是针对 Play 2 3 的在解决了有关 Ebean ORM 从
如何使用 openpyxl 读取 Excel 单元格值而不是计算它的公式？

我在用openpyxl读取单元格值 Excel addin webservice 更新了此列我用过data only True但它不显示当前单元格值而是显示 Excel 上次读取工作表时存储的值 wbFile openpyxl load
使用 DateInterval 计算两个日期之间的月份，而不在一年内换行

我知道这个话题已经很累了但显然还不够 temp d1 new DateTime date Y m d fromTime 2012 01 01 temp d2 new DateTime date Y m d endTime 2013 02
在 C 中实现 SB 型 riscv 指令

我遇到了一些问题我尝试将 32 位二进制解码为 RISCV 架构集中的 SB 类型指令我已经移动了操作码 imm rs1 rs2 和 rd 值但未能获得正确的 IMM 值例如对于以下 32 位二进制 1111111000000111
运行时获取注解信息

我想知道有没有什么方法可以在运行时获取类的注释信息因为我想获取具体注释的属性 Example class TestMain Field store Store NO private String name private String p
CSS :nth-of-type() 和 :not() 选择器？

我并排浮动了 25 宽的文章我正在添加一个clear both每四个元素之后但是我需要在元素之间插入图形分节符它必须在 ul 为了有效我将分节符下面示例中的第一个 li 项包装成 li 以及 ul li class year
ValueError：预期的 2D 或 3D 输入（获得 1D 输入）PyTorch

class VAE torch nn Module def init self input size hidden sizes batch size super VAE self init self input size input siz
cspack 行为与 msbuild 不同

使用 Visual Studio 2012 Azure SDK 2 1 我试图找出创建 csx 文件夹以在 azure 模拟器中运行的最佳方法我的理解是在打包 Azure 项目之前不会创建 csx 文件夹我可以从 Visual St
无法在 iOS 上使用自定义 @protocol

注意以下是使用启用了自动引用计数 ARC 的 iOS 我认为 ARC 可能与它不起作用有很大关系因为这是根据我通过谷歌找到的示例设置的我正在尝试创建一个协议来通知委托用户从 UITableView 选择的文件名文件列表视图控制器 h
离子搜索栏搜索不适用于 cypress {enter}

我有一个 Ionic 6 应用程序我正在使用 cypress 9 3 1 对其进行测试在我的应用程序中我使用像这样的离子搜索栏
插入...值（SELECT ... FROM ...）

我在尝试着INSERT INTO使用另一个表的输入的表尽管这对于许多数据库引擎来说是完全可行的但我似乎总是很难记住正确的语法SQL当天的发动机 MySQL http en wikipedia org wiki MySQL Oracle
WPF DPI 问题

我开发了一个应用程序在我的计算机上看起来很棒但当我将其安装到具有不同分辨率和 DPI 设置的其他计算机上时它看起来很糟糕控件相互重叠这真是太痛苦了有人对如何避免这种情况有什么建议吗 Windows 无法知道屏幕的本机 DPI 每
Python3 - 无法读取 docx、odt 文件 - UnicodeDecodeError：“utf-8”编解码器无法解码位置 10 中的字节 0xea：无效的连续字节

我正在尝试将大 docx 文件拆分为小文件为此当读取文件时python3 6使用以下代码 with open h docx r as f a f read 它抛出这个错误 Traceback most recent call last

Python3 - 无法读取 docx、odt 文件 - UnicodeDecodeError：“utf-8”编解码器无法解码位置 10 中的字节 0xea：无效的连续字节

Python3 - 无法读取 docx、odt 文件 - UnicodeDecodeError：“utf-8”编解码器无法解码位置 10 中的字节 0xea：无效的连续字节 的相关文章

随机推荐

热门标签

Python3 - 无法读取 docx、odt 文件 - UnicodeDecodeError：“utf-8”编解码器无法解码位置 10 中的字节 0xea：无效的连续字节的相关文章