UnicodeEncodeError：在 UTF-8 语言环境中打印时，“ascii”编解码器无法对字符“\xe9”进行编码

2024-04-17

我正在清理 Europarl 的法语单语语料库（http://data.statmt.org/wmt19/translation-task/fr-de/monolingual/europarl-v7.fr.gz http://data.statmt.org/wmt19/translation-task/fr-de/monolingual/europarl-v7.fr.gz）。原始原始数据在.gz文件（我使用下载wget）。我想提取文本并查看它的外观，以便进一步处理语料库。

使用以下代码提取文本gzip，我获得了该类的数据bytes.

with gzip.open(file_path, 'rb') as f_in:
    print('type(f_in)=', type(f_in))
    text = f_in.read()
    print('type(text)=', type(text))

第一行几行的打印结果如下：

类型(f_in) = 类 'gzip.GzipFile'

类型（文本）= 类“字节”

b'Reprise de la session\nJe d\xc3\xa9clare reprise la session du Parlement europ\xc3\xa9en qui avait \xc3\xa9t\xc3\xa9 interrompue le vendredi 17 d\xc3\xa9cembre dernier et je vous renouvelle tous mes vux esp\xc3\xa9rant que vous avez pass\xc3\xa9 de bonnes vacances.\nComme vous avez pu le constater, le grand "bogue de l\'an 2000" ne s\'est pas produit.\n

我尝试使用解码二进制数据utf8 and ascii使用以下代码：

with gzip.open(file_path, 'rb') as f_in:
    print('type(f_in)=', type(f_in))
    text = f_in.read().decode('utf8')
    print('type(text)=', type(text))

它返回这样的错误：

UnicodeEncodeError：“ascii”编解码器无法对位置 26 中的字符“\xe9”进行编码：序号不在范围内（128）

我也尝试过使用codecs and unicodedata包打开文件，但它也返回编码错误。

您能否帮我解释一下我应该做什么才能以正确的格式获取法语文本，例如这样？

重开会议\n我宣布重开欧洲议会会议，并于 12 月 17 日开始对卖方进行插话，我们将重新开始，以敏锐的洞察力来度过美好的假期。\n祝您一切顺利，伟大的“ bogue de l'an 2000" 不是产品。\n

非常感谢您的帮助！

发生 UnicodeEncodeError 的原因是，在打印时，Python 将字符串编码为字节，但在本例中，所使用的编码 - ASCII - 没有与 '\xe9' 匹配的字符，因此会引发错误。

设置Python编码 https://docs.python.org/3.5/using/cmdline.html#envvar-PYTHONIOENCODING环境变量强制Python使用不同的编码——环境变量的值。 UTF-8编码可以对任何字符进行编码，因此像这样调用程序可以解决问题：

PYTHONIOENCODING=UTF-8 python3  europarl_extractor.py

假设代码是这样的：

import gzip

if __name__ == '__main__':
    with gzip.open('europarl-v7.fr.gz', 'rb') as f_in:
        bs = f_in.read()
        txt = bs.decode('utf-8')
        print(txt[:100])

环境变量可以通过其他方式设置 - 通过export声明，在.bashrc, .profile etc.

一个有趣的问题是whyPython 正在尝试将输出编码为 ASCII。我曾假设在 *nix 系统上，Python 本质上是查看$LANG环境变量来确定要使用的编码。但在这种情况下的值$LANG is fr_FR.UTF-8，但 Python 使用 ASCII 作为输出编码。

从看source https://github.com/python/cpython/blob/3.5/Lib/locale.py为了locale模块，以及这个FAQ https://www.cl.cam.ac.uk/~mgk25/unicode.html#activate，按顺序检查这些环境变量：

'LC_ALL', 'LC_CTYPE', 'LANG', 'LANGUAGE'

所以这可能是其中之一LC_ALL or LC_CTYPE已设置为在您的环境中强制使用 ASCII 编码的值（您可以通过运行locale终端中的命令；也在运行locale charmap会告诉你编码本身）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

UnicodeEncodeError：在 UTF-8 语言环境中打印时，“ascii”编解码器无法对字符“\xe9”进行编码的相关文章

pip 相当于 `npm install package --save-dev` 的东西是什么？

在nodejs中我可以做npm install package save dev将安装的包保存到包中如何在 Python 包管理器中实现同样的效果pip 我想将包名称及其版本保存到例如 requirements pip就在使用类似的东
VS Code Python autopep8 不支持 2 个空格悬挂缩进

我正在尝试让 autopep8 正常工作以 2 个空格而不是 4 个空格正确缩进 Python 代码我正在使用带有 Python 扩展的 VS Code 该扩展使用 autopep8 进行格式化我发现here https stacko
使用 python 请求时出现 SSLError

我尝试执行第一个命令请求快速入门 http docs python requests org en latest user quickstart gt gt gt import requests gt gt gt r requests ge
图像从部署到heroku的django web应用程序中消失

我正在开发一个 django 项目使用 django Rest 框架编写 REST API 以在 Android 应用程序中使用它们我的主要想法是在 Django 中开发后端在 Android 中开发前端项目部署在 Heroku 上
如何有效地将多个 pandas 列组合成一个类似数组的列？

使用对象类型列之类的东西创建或加载 DataFrame 很容易如下所示 In pdf pd DataFrame a 1 2 3 b 4 5 6 c 7 8 9 combined 1 4 7 2 5 8 3 6 9 Out a b c c
ResponseNotReady 对于真正简单的 python http 请求？

我正在用 python 编写一个简单的脚本重放保存的 HTTP 请求 https stackoverflow com questions 8384848 method program for sending a given http req
如何从 TKinter 和 SQLite3 中的列表框中删除行

我试图弄清楚如何从列表框和 sqlite3 中删除一行我的底部有一个 delButton 函数我需要从列表框和sql中删除该行吗我不确定我在这里做什么就删除部分而言我通过复制和粘贴各种示例将该功能放在一起 from Tkinter
selenium.common.exceptions.SessionNotCreatedException：消息：未从选项卡创建的会话使用 ChromeDriver Chrome Selenium Python 崩溃

当我尝试访问脚本请求的没有特定的 url 时显然出现此错误我不明白为什么会出现这个错误但我想对其进行处理以免在发生错误时中止脚本这会重复但不能解决我的问题如何避免错误 selenium common exceptions Se
Python 中的字符串、整数和运算符

如何在运算中使用算术运算符由用户作为字符串输入我可以打印操作本身但我想打印解决方案这是我的笨拙尝试 Initialise variables x 2 y 3 Prompt the user for an arithmetic ope
如何使用 pyodbc 和 MS-Access 在 Python Cursor.execute 中查看真实的 SQL 查询

我在 Python 中使用以下代码使用 pyodbc 作为 MS Access 基础 cursor execute select a from tbl where b and c x y 没关系但是出于维护目的我需要知道发送到数据库的
Python：将字典转换为字节

我正在尝试将字典转换为字节但在将其转换为正确的格式时遇到问题首先我尝试使用自定义架构映射字典模式定义如下 class User def init self name None code None self name name sel
Tensorflow：使用 Adam 优化器

我正在张量流中试验一些简单的模型包括一个看起来与第一个非常相似的模型面向 ML 初学者的 MNIST 示例 http www tensorflow org tutorials mnist beginners index md 但维数稍大一
如何在python中修改html树？

假设有一些可变片段html代码 p span class code string 1 span class code string 2 span class code string 3 span span span p p span cla
pandas - 扩展 DataFrame 的索引，将新行的所有列设置为 NaN？

我有时间索引的数据 df2 pd DataFrame day pd Series date 2012 1 1 date 2012 1 3 b pd Series 0 22 0 3 df2 df2 set index day df2 b da
MySQL - 选择字符串的前 10 个字节

各位聪明的男士女士们大家好如何选择字符串的前 x 个字节用例我正在优化产品描述文本以上传到亚马逊亚马逊按 utf8 中的字节不是我之前所说的 latin1 而不是字符来测量字段长度另一方面 MySQL 似乎是基于字符进行操作的
在 python 中检查堆栈中的局部变量

我编写了一个小函数它在堆栈中查找一级并查看其中是否有变量但是我如何将这个函数变成一个可以在堆栈中一直查找直到找到一个局部变量并购买某个特定名称的函数 import inspect def variable lookup variable
使用 CustomCallback() 类在训练时实现冻结层

我正在尝试在 TensorFlow 中训练自定义 CNN 模型我想以某种方式在训练仍在运行时冻结特定时期模型的某些层我已经实现了冻结层但我必须在某些时期训练模型然后在我想要冻结的特定层中将可训练属性更改为 False 然后编译模型
添加类方法后如何更新类的实例？

我发现自己陷入了困境我开发了一个类然后创建了该类的一个实例这些类通常会执行数据和统计操作这些操作需要很长时间有时需要 20 分钟我将继续开发我的类并向其中添加其他方法现在如何使用新方法更新以前的类实例而不重新初始化该类的旧
从Python中的一行中删除标签

我有一个具有以下架构的文本 word1 word2 br word3 word4 br 我想删除最后一部分并将我的结果存储在另一个文件中我已尝试以下操作仍然没有将结果保存在其他文件中 def main fileR open test
如何使用 numpy 数组加速分形生成？

这是我为使用牛顿方法制作分形而编写的一个小脚本 import numpy as np import matplotlib pyplot as plt f np poly1d 1 0 0 1 x 3 1 fp np polyder f def

随机推荐

当一个对象被分配给另一个对象时会发生什么

public class DrumKitTestDrive param args public static void main String args TODO Auto generated method stub Echo e1 new
Java 中枚举类型的强制初始化

我试图找到一种方法来强制 Java 加载初始化枚举类型嵌套在包含静态 Map 的类中这对我来说很重要因为枚举类型有一个填充所述映射的构造函数并且如果没有显式方法来初始化此枚举则映射将保持为空我尝试过使用Class forNam
Tensorflow：如何查看张量板中的检查点？

假设我有内容检查点 checkpoint model ckpt 240000 data 00000 of 00001 model ckpt 240000 index model ckpt 240000 meta 是否可以在张量板中查看检查点
将 webpack（环境）变量传递给 scss 文件

对 webpack 非常陌生我希望能够读取一个值在本例中具体是env from webpack config js in a sass文件这样我就可以根据环境有不同的CSS 例如 env 开发颜色绿色 env 生产颜色蓝色到
比较没有毫秒的日期时间

I need to compare dates in two separate list Each list is constructed of MyFile Objects That is a class that I created i
Spring Data 和具有分页功能的本机查询

在一个网络项目中使用最新的 spring data 1 10 2 和 MySQL 5 6 数据库我尝试使用带分页的本机查询但我遇到了org springframework data jpa repository query Inval
如何更改appBar后退按钮颜色

我不知道如何将应用程序栏的自动后退按钮更改为不同的颜色它在脚手架下我试图研究它但我无法理解它 return Scaffold appBar AppBar backgroundColor Colors white title Image
您上传的二进制文件无效。使用 SDK 的预发布测试版来构建应用程序

我在将新应用程序提交到应用程序商店时遇到问题 Itunes Connect 给我错误您上传的二进制文件无效 SDK 的预发布测试版用于构建该应用程序我没有更改任何内容我可以编译为临时证书并且工作正常我昨天上传了另一个应用程序效果也
如何用CSS取消选择？

我想从选择中取消选择 id 项目而不更改 HTML 或添加任何类名假设我想在 CSS 中模拟这个 Jquery 句子 img not thisone CSS 是否可以使用 CSS3 not 选择器它具有等效的jQuery 选择器 h
比较两个 Date 实例是否指同一天

我有两个 java util Date 的 Java 实例我必须查明它们是否指同一天我可以用困难的方法来做到这一点将日期分开并比较日期确保年份也匹配由于这是一个很常见的问题我希望有一个更简单的解决方案来解决这个问题 Thanks
处理innoDB死锁

我一直在得到一个Deadlock found when trying to get lock try restarting transaction我的 InnoDB 表上出现错误这是查询 UPDATE views SET visit cn
如何解决PHP扩展“0”必须加载的问题？

我正在尝试在我的服务器上安装 Magento 我做了一切正如文档中所写的我有以下错误必须加载 PHP 扩展 0 当我尝试在浏览器中的第二页上配置 Magento 时会发生这种情况你知道如何解决这个问题吗如果您安装的是 Magen
PHP 表单从 id 发送值而不是值

我通常在带有隐藏字段的表单中做类似的事情
如何查找总和位于给定值范围内的整数数组中的所有有序元素对

给定一个整数数组查找数组中总和位于给定范围 a b 内的所有有序元素对的数量这是一个 O n 2 的解决方案 counts all pairs in array such that the sum of pair lies in the
在 JavaScript 中使用 Rails 变量时转义引号？

我在尝试在 javascript 代码中使用 Rails 变量时遇到问题例如我可能定义一个 link to remote 带有参数 complete gt alert my var If my var I m testing 那么 ja
任务似乎自动开始

我正在移植一个加载时间很长的程序当我移植它时它根本没有得到改善因为缓慢是因为访问数据库服务器而不是次优代码我已将加载移动到一个单独的线程上Tasks库现在 UI 在加载时不会冻结但它确实让我对某些事情感到好奇 The Task
使用弹簧对安全休息控制器进行单元测试

我有一个使用 Spring Boot 编写的非常小的 REST 应用程序我想编写一个用于身份验证的单元测试但即使我将 MockWithUser 添加到测试中我也会收到 401 错误重要的文件是安全配置 Configuration
ptr_vector如何管理内存？

我目前正在使用 c 使用 opengl 进行较低级别的编码我来自一个沉重的 objc 背景所以我对内存管理有一些了解但我似乎无法理解 boost 库如何管理容器类型例如ptr vector 我认为我的问题与我不知道如何ptr vec
使用 dplyr 过滤包含部分列字符串的行

假设我有一个像这样的数据框 term cnt apple 10 apples 5 a apple on 3 blue pears 3 pears 1 如何过滤此列中所有部分找到的字符串例如得到结果 term cnt apple 10 pe
UnicodeEncodeError：在 UTF-8 语言环境中打印时，“ascii”编解码器无法对字符“\xe9”进行编码

我正在清理 Europarl 的法语单语语料库 http data statmt org wmt19 translation task fr de monolingual europarl v7 fr gz http data statmt

UnicodeEncodeError：在 UTF-8 语言环境中打印时，“ascii”编解码器无法对字符“\xe9”进行编码

UnicodeEncodeError：在 UTF-8 语言环境中打印时，“ascii”编解码器无法对字符“\xe9”进行编码 的相关文章

随机推荐

热门标签

UnicodeEncodeError：在 UTF-8 语言环境中打印时，“ascii”编解码器无法对字符“\xe9”进行编码的相关文章