“utf-8”编解码器无法解码位置 18 中的字节 0x92：起始字节无效

2023-12-23

我正在尝试读取名为 df1 的数据集，但它不起作用

import pandas as pd
df1=pd.read_csv("https://raw.githubusercontent.com/tuyenhavan/Statistics/Dataset/World_Life_Expectancy.csv",sep=";")

df1.head()

上面的代码有巨大的错误，但这是最相关的

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x92 in position 18: invalid start byte

数据确实没有编码为UTF-8；除了那个 0x92 字节之外，所有内容都是 ASCII：

b'Korea, Dem. People\x92s Rep.'

将其解码为Windows 代码页 1252 https://en.wikipedia.org/wiki/Windows-1252相反，其中 0x92 是一个奇特的引用，’:

df1 = pd.read_csv("https://raw.githubusercontent.com/tuyenhavan/Statistics/Dataset/World_Life_Expectancy.csv",
                  sep=";", encoding='cp1252')

Demo:

>>> import pandas as pd
>>> df1 = pd.read_csv("https://raw.githubusercontent.com/tuyenhavan/Statistics/Dataset/World_Life_Expectancy.csv",
...                   sep=";", encoding='cp1252')
>>> df1.head()
                   2000  2001  2002  2003  2004  2005  2006  2007  2008  2009  \
0     Afghanistan  55.1  55.5  55.9  56.2  56.6  57.0  57.4  57.8  58.2  58.6
1         Albania  74.3  74.7  75.2  75.5  75.8  76.1  76.3  76.5  76.7  76.8
2         Algeria  70.2  70.6  71.0  71.4  71.8  72.2  72.6  72.9  73.2  73.5
3  American Samoa    ..    ..    ..    ..    ..    ..    ..    ..    ..    ..
4         Andorra    ..    ..    ..    ..    ..    ..    ..    ..    ..    ..

   2010  2011  2012  2013  Unnamed: 15  2014  2015
0  59.0  59.3  59.7  60.0          NaN  60.4  60.7
1  77.0  77.2  77.4  77.6          NaN  77.8  78.0
2  73.8  74.1  74.3  74.6          NaN  74.8  75.0
3    ..    ..    ..    ..          NaN    ..    ..
4    ..    ..    ..    ..          NaN    ..    ..

不过我注意到，Pandas 似乎只从表面上看 HTTP 标头too当您从 URL 加载数据时，会生成 Mojibake。当我将数据直接保存到磁盘时，then加载它pd.read_csv()数据已正确解码，但从 URL 加载会产生重新编码的数据：

>>> df1[' '][102]
'Korea, Dem. Peopleâ€™s Rep.'
>>> df1[' '][102].encode('cp1252').decode('utf8')
'Korea, Dem. People’s Rep.'

这是一个Pandas 中的已知错误 https://github.com/pandas-dev/pandas/issues/10424。您可以使用以下方法解决此问题urllib.request https://docs.python.org/3/library/urllib.request.html#module-urllib.request加载 URL 并将其传递给pd.read_csv()反而：

>>> import urllib.request
>>> with urllib.request.urlopen("https://raw.githubusercontent.com/tuyenhavan/Statistics/Dataset/World_Life_Expectancy.csv") as resp:
...     df1 = pd.read_csv(resp, sep=";", encoding='cp1252')
...
>>> df1[' '][102]
'Korea, Dem. People’s Rep.'

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

“utf-8”编解码器无法解码位置 18 中的字节 0x92：起始字节无效的相关文章

python 3 argparse 调用函数

我想在 python3 中创建一个类似命令行类似 shell 的界面 Argparse 似乎负责解析和显示帮助错误消息根据argparse 的 python3 文档 https docs python org 3 5 library
使用 pandas 将字符串对象转换为 int/float

import pandas as pd path1 home supertramp Desktop 100 life 180 data csv mydf pd read csv path1 numcigar Never 0 1 5 Ciga
Paramiko SSHException 通道已关闭

我一直在使用 Paramiko 在 Linux Windows 机器上发送命令它可以很好地在 Ubuntu 机器上远程执行测试但是它不适用于 Windows 7 主机以下是我收到的错误 def unit for event self
Perl 是否有相当于 Python 的 `if __name__ == '__main__'` 的功能？

有没有一种方法可以确定当前文件是否是 Perl 源中正在执行的文件在 Python 中我们使用以下结构来做到这一点 if name main This file is being executed raise NotImplemente
将一维数组转换为下三角矩阵

我想将一维数组转换为较低的零对角矩阵同时保留所有数字我知道numpy tril函数但它用零替换了一些元素我需要扩展矩阵以包含所有原始数字例如 10 20 40 46 33 14 12 46 52 30 59 18 11 22 30
如何在Python代码中查找列号

简短问题当按上述方式调用函数时我可以找到行号here https stackoverflow com questions 3056048 filename and line number of python script 同样如何找到
张量流和线程

下面是来自 Tensorflow 网站的简单 mnist 教程即单层 softmax 我尝试通过多线程训练步骤对其进行扩展 from tensorflow examples tutorials mnist import input dat
scikit-learn 和tensorflow 有什么区别？可以一起使用它们吗？

对于这个问题我无法得到满意的答案据我了解 TensorFlow是一个数值计算库经常用于深度学习应用而Scikit learn是一个通用机器学习框架但它们之间的确切区别是什么 TensorFlow 的目的和功能是什么我可以一起使用它
Tensorflow 不分配完整的 GPU 内存

Tensorflow 默认分配所有 GPU 内存但我的新设置实际上只有 9588 MiB 11264 MiB 我预计大约 11 000MiB 就像我的旧设置一样张量流信息在这里 from tensorflow python client
如何将类添加到 LinkML 中的 SchemaDefinition？

中的图表https linkml io linkml model docs SchemaDefinition https linkml io linkml model docs SchemaDefinition and https link
在 iPython/pandas 中绘制多条线会生成多个图

我试图了解 matplotlib 的状态机模型但在尝试在单个图上绘制多条线时遇到错误据我了解以下代码应该生成包含两行的单个图 import pandas as pd import pandas io data as web aapl
Pandas：将 pytz.FixedOffset 应用于系列

我有一个带有timestamp列看起来像这样 0 2020 01 26 05 00 00 08 00 1 2020 01 26 06 00 00 08 00 Name timestamp dtype datetime64 ns pytz F
为什么 __instancecheck__ 没有被调用？

我有以下 python3 代码 class BaseTypeClass type def new cls name bases namespace kwd result type new cls name bases namespace p
Selenium 不会在新选项卡中打开新 URL（Python 和 Chrome）

我想使用 Selenium WebDriver 和 Python 在不同的选项卡中打开相当多的 URL 我不确定出了什么问题 driver webdriver Chrome driver get url1 time sleep 5 driv
python dicttoxml 多次使用相同的键

我正在尝试做如下所示的 xml
Python 导入非常慢 - Anaconda python 2.7

我的 python import 语句变得非常慢我使用 Anaconda 包在本地运行 python 2 7 导入模块后我编写的代码运行得非常快似乎只是导入需要很长时间例如我使用以下代码运行了一个 tester py 文件 imp
在 HDF5 (PyTables) 中存储 numpy 稀疏矩阵

我在使用 PyTables 存储 numpy csr matrix 时遇到问题我收到此错误 TypeError objects of type csr matrix are not supported in this context so
Python：无法使用 os.system() 打开文件

我正在编写一个使用该应用程序的 Python 脚本pdftk http www pdflabs com tools pdftk the pdf toolkit 几次来执行某些操作例如我可以在 Windows 命令行 shell 中使用
Streamlabs API 405 响应代码

我正在尝试使用Streamlabs API https dev streamlabs com Streamlabs API 使用 Oauth2 来创建应用程序因此首先我将使用我的应用程序的用户发送到一个授权链接其中包含我的应用程序的客
在python中对列表列表执行行总和和列总和

我想用python计算矩阵的行和和列和但是由于信息安全要求我无法使用任何外部库因此为了创建矩阵我使用了列表列表如下所示 matrix 0 for x in range 5 for y in range 5 for pos in

随机推荐

这个宏有什么作用？ __success(返回 >= 0) 长

在Windows头文件WinNT h中 HRESULT定义如下 typedef success return gt 0 long HRESULT 做了一些研究我了解到 success 宏是微软源代码注释语言的一部分SAL并定义在sal h
Facebook 登录问题无法获取用户的实际 Facebook ID

我们有一个适用于 Android iOS 和 Web 的应用程序该应用程序使用facebook登录使用easyfacebook jar http www easyfacebookandroidsdk com download asp 作
如何解决？假设程序集引用'System.Web.Mvc

参考问题 26393157 windows update caused mvc3 and mvc4 stop working https stackoverflow com questions 26393157 windows update
Yii 可排序属性

我有以下表但是当我将名字定义为可排序时它不起作用没有将名字显示为链接我可以在其中单击并对列表视图进行排序尽管如此如果我的用户名工作得很好 User userid username Profile userid firstname
通用类型扩展联合不会被类型保护缩小

我尝试复制安德斯的条件类型和泛型示例他在2018年建造 https channel9 msdn com Events Build 2018 BRK2150 36 45 他使用条件类型作为返回类型来替代更传统的函数重载该幻灯片有以下内容
IIS 10 应用程序池睡着了

我们有内部使用的 ASP NET Core 应用程序该应用程序在办公时间使用并且有一批应在每天凌晨 3 点处理计划由HangFire像这样 RecurringJob AddOrUpdate gt MyBatch 0 0 3 1 1 问
SFINAE 用于检测非成员模板函数的存在

TL DR我想写一个模板函数Process T value 根据非成员函数的存在对于不同的值表现不同CreateProcessor
如何使用带有预处理器常量的自定义消息的语言文件？

我想拥有一切CustomMessages在语言文件中扩展名isl 此外一些消息包含预处理器常量例如 ALREADY INSTALLED MyAppName is already installed on this computer 该
检测 UIBezierPath 笔划上的触摸，而不是填充[重复]

这个问题在这里已经有答案了可能的重复如何检查用户是否在 CGPath 附近点击 https stackoverflow com questions 1143704 how can i check if a user tapped nea
geom_boxplot (R) 的股票烛台绘制问题

我在用geom boxplot使用股市数据绘制烛台问题在于各个箱线图的上边缘和下边缘以及上须线端点在 y 轴上显示的位置远高于其相应值不过每个箱线图下须线的相对高度上边缘和下边缘之间的差异和端点都很好这是我的代码 candle
在 Select LINQ 方法中使用 Task.Run()

假设我有以下代码仅用于学习目的 static async Task Main string args var results new ConcurrentDictionary
Perl 6 如何评估真实性？

在阅读有关 Perl 6 的内容时我看到一个被大肆宣传的功能您不再需要这样做 return 0 but true 但可以这样做 return 0 but True 如果是这样的话 Perl 6 中的 Truth 是如何工作的呢在 Pe
无法将谷歌地图 GMSMapView 放在主主视图的子视图中？

我正在为这个问题苦苦挣扎我想添加谷歌地图GMSMapView into a UIView这只是主要的一部分UIView of my ViewController 应该很简单我用故事板创建了UIView我想要的尺寸并将其放在主目录中UIV
javascript 中的 HashMap 对象[重复]

这个问题在这里已经有答案了可能的重复循环遍历 JavaScript 对象 https stackoverflow com questions 684672 loop through javascript object 获取对象的键数组
ng bootstrap 工具提示的宽度和背景颜色

我还需要修改工具提示框的宽度及其背景我怎样才能实现它我正在使用 angular2 和 ng bootstrap i class fa fa info circle info icon background i 我尝试将以下内容放入 ta
为什么调用firebase函数时会出现FCM错误

所以我通过 AngularFire 调用 firebase 函数如下所示 const response await this aFunctions httpsCallable
从 byte[] 读取时提取 ZipFile 条目的内容 (Java)

我有一个 zip 文件其内容显示为 byte 但原始文件对象不可访问我想阅读每个条目的内容我能够从字节的 ByteArrayInputStream 创建 ZipInputStream 并且可以读取条目及其名称但是我看不到一种简单的方
确定 ruby 中对象的类型

我将使用 python 作为我正在寻找的示例如果您不了解 Python 您可以将其视为伪代码 gt gt gt a 1 gt gt gt type a
将 SpriteKit 场景渲染/快照到 NSImage

有谁知道如何快照完整的SKView or SKScene进入一个NSImage 我们已经能够使用textureFromNodeAPI 用于创建SKTexture来自一个节点及其所有子节点但到目前为止我们还没有找到一种方法将图像数据提
“utf-8”编解码器无法解码位置 18 中的字节 0x92：起始字节无效

我正在尝试读取名为 df1 的数据集但它不起作用 import pandas as pd df1 pd read csv https raw githubusercontent com tuyenhavan Statistics Data

“utf-8”编解码器无法解码位置 18 中的字节 0x92：起始字节无效

“utf-8”编解码器无法解码位置 18 中的字节 0x92：起始字节无效 的相关文章

随机推荐

热门标签

“utf-8”编解码器无法解码位置 18 中的字节 0x92：起始字节无效的相关文章