关于Python中中文文本文件使用二进制方式读取后的解码UnicodeDecodeError问题

2023-11-11

最近老猿在进行文件操作的验证测试，发现对于中文文本文件如果使用二进制方式打开，返回的类型是bytes，如果要转换成可读的字符串信息需要进行解码。可是老猿使用decode()或decode(“UTF-8”)解码后报错：
Traceback (most recent call last):
File “<pyshell#24>”, line 3, in
print(“line.decode():”,line.decode())
UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xb3 in position 0: invalid start byte
在网上查了一下，发现给出的解决方法复杂还不容易理解。老猿认为这就是个字符集编码的问题，但以前老猿没有学习过字符集编码的相关知识，于是在网上查了相关的资料，具体请见老猿转载的几篇文章：
1、《转：使用DOS命令chcp查看windows操作系统的默认编码以及编码和语言的对应关系》；
2、转：浅析windows下字符集和文件编码存储/utf8/gbk
3、《转1：Python字符编码详解》
4、《转2：Python字符编码详解》
5、《转：Python常见字符编码及其之间的转换》

通过以上几篇文章的学习，老猿确认了是由于操作系统默认字符集是’GBK’而不是’UTF-8’导致的，因此文件存储后的编码也是GBK，则解码时调用decode(‘GBK’)或decode(‘GB2312’)就可以解决。
案例：

>>> fp = open(r"c:\temp\test.txt","rb")
>>> for line in fp:
	print("line:",line)
	try:print("line.decode():",line.decode())
	except:print("line.decode() error")
	try:print("line.decode('UTF-8'):",line.decode())
	except:print("line.decode('UTF-8') error")
	print("line.decode('gbk'):",line.decode('GBK'))
	print("line.decode('gb2312'):",line.decode('GB2312'))

	
line: b'\xb3\xfc\xd6\xdd\xce\xf7\xbd\xa7\r\n'
line.decode() error
line.decode('UTF-8') error
line.decode('gbk'): 滁州西涧


line.decode('gb2312'): 滁州西涧


line: b'[\xcc\xc6] \xce\xa4\xd3\xa6\xce\xef\r\n'
line.decode() error
line.decode('UTF-8') error
line.decode('gbk'): [唐] 韦应物


line.decode('gb2312'): [唐] 韦应物


line: b'\xb6\xc0\xc1\xaf\xd3\xc4\xb2\xdd\xbd\xa7\xb1\xdf\xc9\xfa\xa3\xac\xc9\xcf\xd3\xd0\xbb\xc6\xf0\xbf\xc9\xee\xca\xf7\xc3\xf9\xa1\xa3\r\n'
line.decode() error
line.decode('UTF-8') error
line.decode('gbk'): 独怜幽草涧边生，上有黄鹂深树鸣。


line.decode('gb2312'): 独怜幽草涧边生，上有黄鹂深树鸣。


line: b'\xb4\xba\xb3\xb1\xb4\xf8\xd3\xea\xcd\xed\xc0\xb4\xbc\xb1\xa3\xac\xd2\xb0\xb6\xc9\xce\xde\xc8\xcb\xd6\xdb\xd7\xd4\xba\xe1\xa1\xa3'
line.decode() error
line.decode('UTF-8') error
line.decode('gbk'): 春潮带雨晚来急，野渡无人舟自横。
line.decode('gb2312'): 春潮带雨晚来急，野渡无人舟自横。
>>>

老猿Python，跟老猿学Python!
博客地址：https://blog.csdn.net/LaoYuanPython
请大家多多支持，点赞、评论和加关注！谢谢！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

计算机常识

互联网知识

老猿Python

python

解码

关于Python中中文文本文件使用二进制方式读取后的解码UnicodeDecodeError问题的相关文章

从数据框中按索引删除行

我有一个数组wrong indexes train其中包含我想从数据框中删除的索引列表 0 63 151 469 1008 要删除这些索引我正在尝试这样做 df train drop wrong indexes train 但是代码失败
如何在序列化器创建方法中获取 URL Id？

我有以下网址 url r member P
通过列表理解压平列表列表

我正在尝试使用 python 中的列表理解来展平列表我的清单有点像 1 2 3 4 5 6 7 8 只是为了打印这个列表列表中的单个项目我编写了这个函数 def flat listoflist for item in listoflis
Django 模型在模板中不可迭代

我试图迭代模型以获取列表中的第一个图像但它给了我错误即模型不可迭代以下是我的模型和模板的代码我只需要获取与单个产品相关的列表中的第一个图像模型 py class Product models Model title models
从零开始的 numpy 形状意味着什么

好的我发现数组的形状中可以包含 0 对于将 0 作为唯一维度的情况这对我来说是有意义的它是一个空数组 np zeros 0 但如果你有这样的情况 np zeros 0 100 让我很困惑为什么这么定义呢据我所知这只是表达空数组的
为什么Python的curses中escape键有延迟？

In the Python curses module I have observed that there is a roughly 1 second delay between pressing the esc key and getc
使用鼻子获取设置中当前测试的名称

我目前正在使用鼻子编写一些功能测试我正在测试的库操作目录结构为了获得可重现的结果我存储了一个测试目录结构的模板并在执行测试之前创建该模板的副本我在测试中执行此操作 setup功能这确保了我在测试开始时始终具有明确定义的状态现在
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
如何设置 Celery 来调用自定义工作器初始化？

我对 Celery 很陌生我一直在尝试设置一个具有 2 个独立队列的项目一个用于计算另一个用于执行到目前为止一切都很好我的问题是执行队列中的工作人员需要实例化一个具有唯一 object id 的类每个工作人员一个 id 我想知
首先对列表中最长的项目进行排序

我正在使用 lambda 来修改排序的行为 sorted list key lambda item item lower len item 对包含元素的列表进行排序A1 A2 A3 A B1 B2 B3 B 结果是A A1 A2 A3 B
创建嵌套字典单行

您好我有三个列表我想使用一行创建一个三级嵌套字典 i e l1 a b l2 1 2 3 l3 d e 我想创建以下嵌套字典 nd a 1 d 0 e 0 2 d 0 e 0 3 d 0 e 0 b a 1 d 0 e 0 2 d 0
使用yield 进行字典理解

作为一个人为的例子 myset set a b c d mydict item yield join item s for item in myset and list mydict gives as cs bs ds a None b N
如何为每个屏幕添加自己的 .py 和 .kv 文件？

我想为每个屏幕都有一个单独的 py 和 kv 文件应通过 main py main kv 中的 ScreenManager 选择屏幕设计应从文件 screen X kv 加载类等应从文件 screen X py 加载 Screens
当鼠标悬停在上面时，intellisense vscode 不显示参数或文档

我正在尝试将整个工作流程从 Eclipse 和 Jupyter Notebook 迁移到 VS Code 我安装了 python 扩展它应该带有 Intellisense 但它只是部分更糟糕我在输入句点后收到建议但当将鼠标悬停在其上方
无法在前端使用 JavaScript Fetch API 将文件上传到 FastAPI 后端

我正在尝试弄清楚如何将图像发送到我的 API 并验证生成的token那是在header的请求到目前为止这就是我所处的位置 app post endreProfilbilde async def endreProfilbilde requ
您可以将操作直接应用于map/reduce/filter 中的参数吗？

map and filter通常可以与列表理解互换但是reduce并不那么容易被交换map and filter 此外在某些情况下我仍然更喜欢函数语法但是当您需要对参数本身进行操作时我发现自己正在经历语法体操最终必须编写整个函数
具有自定义值的 Django 管理外键下拉列表

我有 3 个 Django 模型 class Test models Model pass class Page models Model test models ForeignKey Test class Question model M
迭代 pandas 数据框的最快方法？

如何运行数据框并仅返回满足特定条件的行必须在之前的行和列上测试此条件例如 1 2 3 4 1 1 1999 4 2 4 5 1 2 1999 5 2 3 3 1 3 1999 5 2 3 8 1 4 1999 6 4 2 6 1 5 1
您可以使用关键字参数而不提供默认值吗？

我习惯于在 Python 中使用这样的函数方法定义 def my function arg1 None arg2 default do stuff here 如果我不供应arg1 or arg2 那么默认值None or default
Scrapy Spider不存储状态（持久状态）

您好有一个基本的蜘蛛可以运行以获取给定域上的所有链接我想确保它保持其状态以便它可以从离开的位置恢复我已按照给定的网址进行操作http doc scrapy org en latest topics jobs html http d

随机推荐

10行代码学会在 Java 中压缩 Excel 中的图片

Spire XLS for Java是专业的Java Excel API 使开发人员无需使用Microsoft Office或Microsoft Excel即可创建管理操作转换和打印Excel工作表本文介绍如何使用Spire XLS
用Beamer制作幻灯片（卷二色彩篇）

在用Beamer类制作幻灯片卷一里讲解了怎么使用Latex的简单的类来制作幻灯片只是给了基本的怎么制作幻灯片的一个大体框架但是一个很好的幻灯片远远不止这些功能 beamer的功能还有很多今天要介绍的内容就是给幻灯片增加一些绚丽的效果
服务器的作用

服务器的作用 1 服务器就好像是一个电话总台一样而其他的网络设备就像是公共电话所有的数据传输都要经过服务器的处理 2 服务器作为一个网络节点为用户提供数据处理服务最常见的就是使用服务器为自己搭建一个网站 3 服务器运算能力强可以长
C语言实现一个整型计算器的不同方法

文章目录一实现一个整型计算器二运用函数指针数组来实现整型计算器也就是转移表三运用回调函数实现整型计算器一实现一个整型计算器代码如下 include
layui显示表格数据的id的两种形式

1 获取数据库表字段id field id title 用户ID width 100 fixed left align center templet function d return d id 2 templet属性获得id为 title
【大模型】—LangChain开源框架介绍

大模型 LangChain开源框架介绍 2023年可以说是AI大语言模型发展元年随着OpenAI的ChatGPT和GPT 4的发布点燃了人工智能大语言模型的发展浪潮各大科技公司纷纷推出了自家的大语言模型产品各国更是将大语言模型的发展
springboot 跨域过滤器配置

添加maven包依赖
gbk to utf8 utf8 to gbk

My Study About My Learn or Study etc GBK和UTF8之间的转换 By Cnangel on October 8 2012 10 10 AM No Comments 关于GBK和UTF 8之间的转换很多
osg学习（七十一）如何给顶点着色器传递顶点数据

缩放不会影响传递到着色器中顶点坐标缩放 osg会自动向着色器传递osg Vertex osg ModelViewProjectionMatrix等变量不需要再定义在着色器中直接使用即可设置顶点数据 osg Geometry cpp v
2579 启蒙练习-跑步问题

有二个人在n米的椭圆形的跑道跑步他们从同一个起点出发两个人运动方向相同时每a秒相遇一次两个人运动方向相反时每b秒相遇一次求二人的速度 v1 v2 分别是多少本题数据保证 n a b v1 v2 都会是整数收起输入三个数
SQL Server 基础语法1(超详细!)

文章目录创建数据库增加次要数据库文件删除次要数据库文件删除数据库建立表格新增列改变长度删除表查询表删除列创建数据库 create database school 数据库名 on 数据文件 name school dat
SQL Server 基础操作（五）导入和导出数据表

导入数据表 1 选择需要导数据的数据库右击任务导入数据 2 选择数据源数据源代表数据表从哪里导入到当前的数据库中填写数据源服务器名称本地导入 1433 远程导入 IP 1433 3 选择导入的目标数据库选择导入到那个数据库中 4
hive数据仓库课后答案

第一章数据仓库的简介一填空题 1 数据仓库的目的是构建面向分析的集成化数据环境 2 Hive是基于 Hadoop 的一个数据仓库工具 3 数据仓库分为3层即源数据层数据应用层和数据仓库层 4 数据仓库层可以细分为明细层
k8s部署SpringCloud应用

一准备工作将v2目录上传到 root 目录下载地址链接 https pan baidu com s 1oqED4Kew5BeLFqms6U6ISw 提取码 lzx9 springcloud1 项目用k8s部署 eureka eur
（JAVA练习）输入，输出二维数组

题目输入输出二维数组解答 import java util Scanner public class Erweishuzu public static void main String args 二维数组练习 Scanner sc n
element-ui 中dialog居中

标题element ui 中dialog居中 el dialog display flex flex direction column margin 0 important position absolute top 50 left 50
一款强大的浏览器翻译插件 - 沉浸式的翻译

起因前一段时间谷歌翻译宣布跑路不再对大陆用户提供服务听闻这一噩耗我不由得心里一惊燕子啊不是谷歌没有你我可咋活呀对于没太大工作需求顶多遇上几个不认识单词或需要翻译网页的我来说 Chrome 自带的谷歌翻译可以说是我最常用的翻译
micropython源码分析之qstr

前言最近在研究micropython的源码编译过程简单记录下关于qstr部分内容本篇文章基于micropython1 18版本源码 1 19版本及之后可能会略有差异标识符与相应对象的联系 Micropython中有很多标识符例如l
工作笔记：TrueCrypt编译记录

工作笔记 TrueCrypt编译记录 TrueCrypt的最新版本6 2可以从官方网站上下载我从这里下载了一个6 1的 http freedos pri ee truecrypt 在TrueCrypt官方网站上很多旧版本都没了这里却很全
关于Python中中文文本文件使用二进制方式读取后的解码UnicodeDecodeError问题

最近老猿在进行文件操作的验证测试发现对于中文文本文件如果使用二进制方式打开返回的类型是bytes 如果要转换成可读的字符串信息需要进行解码可是老猿使用decode 或decode UTF 8 解码后报错 Traceback most

关于Python中中文文本文件使用二进制方式读取后的解码UnicodeDecodeError问题

关于Python中中文文本文件使用二进制方式读取后的解码UnicodeDecodeError问题 的相关文章

随机推荐

热门标签

关于Python中中文文本文件使用二进制方式读取后的解码UnicodeDecodeError问题的相关文章