UnicodeDecodeError：“utf-8”编解码器无法解码位置 34 中的字节 0xe3：无效的连续字节

2024-03-27

我想用以下代码在 python 文件中打开一些波斯语文本文件：

 for line in codecs.open('0001.txt',encoding='UTF-8'):
       lines.appends(line)

但它给了我这个错误：

> Traceback (most recent call last):
  File "/usr/lib/pycharm-community/helpers/pydev/pydevd.py", line 1596, in <module>
    globals = debugger.run(setup['file'], None, None, is_module)
  File "/usr/lib/pycharm-community/helpers/pydev/pydevd.py", line 974, in run
    pydev_imports.execfile(file, globals, locals)  # execute the script
  File "/usr/lib/pycharm-community/helpers/pydev/_pydev_imps/_pydev_execfile.py", line 18, in execfile
    exec(compile(contents+"\n", file, 'exec'), glob, loc)
  File "/home/nlpuser/Documents/ms/Work/General_Dataset_creator/BijanKhanReader.py", line 24, in <module>
    for lin in codecs.open('corpuses/markaz/0001.txt',encoding='UTF-8'):
  File "/home/nlpuser/anaconda3/envs/tmpy36/lib/python3.6/codecs.py", line 713, in __next__
    return next(self.reader)
  File "/home/nlpuser/anaconda3/envs/tmpy36/lib/python3.6/codecs.py", line 644, in __next__
    line = self.readline()
  File "/home/nlpuser/anaconda3/envs/tmpy36/lib/python3.6/codecs.py", line 557, in readline
    data = self.read(readsize, firstline=True)
  File "/home/nlpuser/anaconda3/envs/tmpy36/lib/python3.6/codecs.py", line 503, in read
    newchars, decodedbytes = self.decode(data, self.errors)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe3 in position 0: invalid continuation byte

这段代码有什么问题？

他是 file 的输出：

0001.txt：非 ISO 扩展 ASCII 文本，带有 CRLF 行终止符

UTF-8 具有非常特定的格式，因为字符可以由 1 到 4 个字节的任意位置表示。

如果一个字符是单字节，它将表示为0x00-0x7F。如果用它来表示two或更多，则leading字节将以0xC2 to 0xF4，然后是一到三个延续字节，范围为0x80 to 0xBF.

在你的例子中，Python 发现了一个位于连续字符位置的字符（即前导字符后面的字符之一），但是0xE3，这不是合法的延续字符。问题可能出在您的文本文件中，而不是您的程序中 - 要么编码错误，要么编码错误。

Use hexdump -C <file> or xxd <file>验证您拥有的确切字节序列以及file <file>尝试猜测编码，我们也许可以说更多。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

encoding

UnicodeDecodeError：“utf-8”编解码器无法解码位置 34 中的字节 0xe3：无效的连续字节的相关文章

生成 Flask 中使用的签名会话 cookie 值

我正在用另一个需要将项目注入会话的 Flask 服务器代理 Flask 服务器两台服务器具有相同的密钥因此加密签名将相同当使用 Flask 和会话时 http 响应包含一个 Set Cookie 标头session text 其中 t
在 Django 中使用 prefetch_lated 连接 ManyToMany 字段

我可能遗漏了一些明显的东西但我在连接 ManyToMany 字段以在 Django 应用程序中工作时遇到问题我有两个模型 class Area models Model name CharField class Role models
为什么我会得到“ufunc 'multiply' did not contains a loop with Signature Matching types dtype('S32') dtype('S32') dtype('S32')”，其值来自 raw_

我正在尝试创建一个非常简单的程序它将绘制一个抛物线其中v是速度 a是加速度和x是时间用户将输入值v and a then v and a and x将决定y 我试图用这个来做到这一点 x np linspace 0 9 10 a ra
使用 Python 将阿拉伯语或任何从右到左书写系统的字符串打印到 Linux 终端

非常简单的例子是 city print city 我期望输出是但实际上输出是相反的字符串字母看起来有点不同因为它们有开始中间和结束形式我无法将其粘贴到此处因为复制粘贴会再次更正字符串的顺序如何在 Linux 终端上正确打印阿拉
使用 NumPy 的 Mittag-Leffler 函数的不稳定性

在尝试重现时Wolfram MathWorld 上的情节 http mathworld wolfram com Mittag LefflerFunction html 并试图帮助这个问题 https stackoverflow com qu
Python 中嵌套列表的排序和分组

我有以下数据结构列表的列表 4 21 1 14 2008 10 24 15 42 58 3 22 4 2somename 2008 10 24 15 22 03 5 21 3 19 2008 10 24 15 45 45 6 21 1 1
Pygooglevoice登录错误

另一个人问了这个问题但没有回复所以我再问一遍我正在尝试使用 pygooglevoice API 但是当我运行 SMS py 示例脚本时它给了我一个登录错误我已经安装了 Enthought python 我想也许我还需要安装其他东西
为什么最简单的 requests_mock 示例在 pytest 中失败？

我有一个特殊的问题requests mock 我想用它pytest测试我的 API 包装器库我尝试过使用requests mock 文档中的第一个示例 http requests mock readthedocs io en latest
如何使直方图列的宽度都相同

我在操作直方图时遇到了一些麻烦我有一个包含两列的 df 我将它们绘制为堆叠直方图我将它们放入特定的垃圾箱中请参阅下面的代码但我想在最后制作一个大垃圾箱 4000 10000 但是默认情况下大垃圾箱的列宽很大有没有办法让这个大垃
python：UnboundLocalError：赋值前引用的局部变量“open”[重复]

这个问题在这里已经有答案了 def read lines readFileName readfile txt f open readFileName r contents f read and so on read lines 当我运行这个
自适应支付 API 错误 580001

我正在 python 中向 paypal 自适应支付 API 发出 PAY 请求并收到通用错误 id 580001 没有其他信息 headers API credentials for the API caller business ac
保存游戏最高分？

我使用 pygame 在 python 中制作了一个非常简单的游戏分数取决于玩家达到的级别我将级别作为变量称为score 我想在游戏开始或结束时显示顶级我会更乐意显示多个分数但我见过的所有其他线程都太复杂我无法理解所以请保持简单
Tkinter 如何根据此组合框自动更新第二个组合框

我在 Tkinter Python 中遇到了组合框更新的问题我有两个组合框组合框A with values A B C and 组合框B 我想要的是当值A在组合框中选择A然后在组合框中B显示值 1 2 3 当值B在组合框中选择A然后在
尝试将 cuda 与 pytorch 一起使用时出现运行时错误 999

我为我的 Geforce 2080 ti 安装了 Cuda 10 1 和最新的 Nvidia 驱动程序我尝试运行一个基本脚本来测试 pytorch 是否正常工作但出现以下错误 RuntimeError cuda runtime erro
Python itertools groupby 中令人不安的奇怪行为/错误？

我在用itertools groupby解析一个短的制表符分隔的文本文件文本文件有几列我想做的就是对具有特定值的所有条目进行分组x在特定的列中下面的代码对名为的列执行此操作name2 寻找变量中的值x 我尝试使用以下方法来做到这一点c
如何使用 PyAudio 选择特定的输入设备

通过 PyAudio 录制音频时如何指定要使用的确切输入设备我的电脑有两个麦克风一个内置一个通过 USB 我想使用 USB 麦克风进行录音这流类 https people csail mit edu hubert pyaudio
python 相当于 sed

有没有一种方法无需双循环即可完成以下 sed 命令的操作 Input Time Banana spinach turkey sed i Banana s Toothpaste file Output Time BananaToothpas
设置字符串中单词或字符数的限制

假设我有一个字符串元素列表 wordlist hi what s up home diddle mc doo Oh wise master kakarot hello have a da 我希望列表中的每个元素最多包含 3 个单词或 20
重新安装后使用 pandas dataframes 时出现问题

我已经重新安装了 Python 和 Anaconda 现在面临以下问题在我将 pkl 文件加载到数据帧并尝试查看该文件后如下所示 df pd read pickle example pkl df 我收到错误 AttributeErr
将 .parquet 编码为 io.Bytes

目标将 Parquet 文件上传到 MinIO 这需要将文件转换为字节我已经能够做到这一点了 csv json and txt bytes data to csv encode utf 8 bytes json dumps self d

随机推荐

如何在mysql错误日志中添加日期

Mysql错误日志旁边只有一个数字和它们的创建时间我需要对其进行格式化以便它还包括日期我该怎么办 130207 2 25 29 Note Plugin FEDERATED is disabled 130207 2 25 29 Inno
Facebook 应用程序和选项卡有什么区别？

我想添加一个指向我的 Facebook 页面的链接该链接将在我的页面中打开新信息不是网站而是来自我的保龄球手使用的评分程序的信息无论如何我都不是程序员而且员工中也没有程序员我正在努力自学这些东西首先我不知道我要添加的内容是
在 OSX Mountain Lion 上安装 PHP 的 mcrypt 扩展

对于潜在的 n00b 问题提前致歉我正在尝试在我的 OSX Mountain Lion 计算机上安装 PHP 的 mcrypt 扩展终端中的以下步骤是我迄今为止为实现 PHP 安装所做的操作 cd path to downloaded
laravel 用户删除时如何重置自动增量？

我一直在努力寻找一种在 Laravel 4 中重置自动增量值的方法但似乎至少目前 Laravel 4 中还没有嵌入此功能所以我这样做了 user User find user id if user if user gt delete D
为什么我在任何来源中都找不到 multi_json-1.3.1？

我有一个简单的 Rails 应用程序想要部署到 Heroku 当我运行以下命令时 git push heroku master 显示以下错误消息 Could not find multi json 1 3 1 in any of the s
此时无法安装此应用程序。Xcode 9.2

我已经更改了我的应用程序名称和包标识符现在当我尝试运行我的应用程序时它显示一个错误This app could not be installed at this time 为什么会这样呢为什么它不运行该应用程序我知道这个问题已经得到
Azure 应用程序服务上的 Angular 应用程序 - 从资产文件夹加载配置文件时出现 404 错误

我正在尝试在azure应用程序服务平台 Windows机器上部署Angular 6应用程序应用程序本身只是一个新的角度应用程序从 ng new appname 生成的基本代码我在本教程之后添加了一些次要代码以便使用配置文件并利用
C++：使用 sizeof 确定字符数组的大小

看下面一段 C 代码 char a1 a b c char a2 abc cout lt lt sizeof a1 lt lt endl lt lt sizeof a2 lt lt endl Though sizeof char 是1个字节
基于 Angular 的 IdentityServer 登录页面

我正在开发一个带有 Angular 的前端应用程序和一个带有 Asp Net Core 的后端其中包含用于身份验证的 IdentityServer4 基于此github项目 https github com IdentityServer
Windows 服务的可执行文件的路径

如何从另一个程序获取特定 Windows 服务的可执行文件的路径不幸的是类 ServiceController System ServiceProcess 没有为此提供方法或属性总是有 WMI 类Win32 Service如上所述he
使用 Android NDK r10 编译 FFmpeg 2.3

我想按照本教程使用 Android NDK r10 编译 FFMpeg 2 3 http www roman10 net how to build ffmpeg for android http www roman10 net how to
Android sdk内容加载器错误[重复]

这个问题在这里已经有答案了我在用日食朱诺win 7 32位平台上的版本一切都很顺利直到今天当我启动 Eclipse 时 Android sdk 内容加载器不能超过 0 我尝试重新启动 Eclipse 我结束了 adb 进程并再次重新启
在sql中，带有Select语句的Insert在并发性方面安全吗？

在我的回答中这个问题 https stackoverflow com questions 1994663 setting version column in append only table 1994757 1994757我建议使用单个插
在没有窗口焦点的情况下检测 Windows 上的按键 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我一直在网上搜索但 Google 上的所有热门结果都只将我引向 Java 这令人沮丧我想做的是制作一个监听键盘事件的程序而不是
模型中的一个或多个参数使用 Ruby on Rails 查找条件

假设我有模型汽车和控制器汽车以及方法显示我有多个属性例如 in production year make 我可以轻松地执行类似的操作来查找与传递的所有参数相匹配的汽车 def display cars Car find all
MySQL 查询 - 基于两个因素连接数据，然后根据值自定义数据排序方式

首先我是查询多个表的新手所以如果这是一个有点愚蠢的问题我很抱歉但我们都必须从某个地方开始我制作了一张图片应该更容易理解 http www mediumsliced co uk temp mysqlhelp jpg http ww
为什么 valarray 这么慢？

我正在尝试使用 valarray 因为它在操作向量和矩阵时非常类似于 MATLAB 我首先做了一些性能检查发现valarray无法达到书中声明的性能C 编程语言 https en wikipedia org wiki The C 2B 2
为什么 IIS 中的授权规则不会限制对我的 WCF 服务的访问？

我有一个托管在 IIS 10 中的独立 WCF 服务我想将对 Web 服务的访问限制为选定的用户组我可以通过在 IIS 中执行以下操作来为 Web 应用程序执行此操作身份验证仅 Windows 身份验证禁用匿名身份验证授权规则
JAXB：类转换异常，但类具有相同的名称

我有一个有趣的问题当我启动 glassfish 服务器时一切正常但是我更改了一些代码并发布了服务器然后运行我的客户端 SistemGirisClientKullaniciDogrula 应用程序抛出此异常 java lang Cl
UnicodeDecodeError：“utf-8”编解码器无法解码位置 34 中的字节 0xe3：无效的连续字节

我想用以下代码在 python 文件中打开一些波斯语文本文件 for line in codecs open 0001 txt encoding UTF 8 lines appends line 但它给了我这个错误 gt Traceback

UnicodeDecodeError：“utf-8”编解码器无法解码位置 34 中的字节 0xe3：无效的连续字节

UnicodeDecodeError：“utf-8”编解码器无法解码位置 34 中的字节 0xe3：无效的连续字节 的相关文章

随机推荐

热门标签

UnicodeDecodeError：“utf-8”编解码器无法解码位置 34 中的字节 0xe3：无效的连续字节的相关文章