使用 numpy.genfromtxt 在 Python 3 中加载 UTF-8 文件

2024-04-05

我有一个从 WHO 网站下载的 CSV 文件（http://apps.who.int/gho/data/view.main.52160 http://apps.who.int/gho/data/view.main.52160，下载，“CSV 格式的多用途表”）。我尝试将文件加载到 numpy 数组中。这是我的代码：

import numpy
#U75 - unicode string of max. length 75
world_alcohol = numpy.genfromtxt("xmart.csv", dtype="U75", skip_header=2, delimiter=",")
print(world_alcohol)

我得到

UnicodeDecodeError：“ascii”编解码器无法解码字节 0xc3 位置 2：序数不在范围(128) 内。

我猜想 numpy 在读取字符串“Côte d'Ivoire”时出现问题。该文件已正确编码为 UTF-8（根据我的文本编辑器）。我正在使用 Python 3.4.3 和 numpy 1.9.2。

我究竟做错了什么？如何将文件读取到 numpy 中？

请注意原来的 2015 年日期。自那以后genfromtxt已获得encoding范围。

在Python3中我可以这样做：

In [224]: txt = "Côte d'Ivoire"
In [225]: x = np.zeros((2,),dtype='U20')
In [226]: x[0] = txt
In [227]: x
Out[227]: 
array(["Côte d'Ivoire", ''],   dtype='<U20')

这意味着我可能可以打开一个“UTF-8”文件（常规，而不是字节模式）和读取行，并将它们分配给数组的元素，例如x.

But genfromtxt坚持使用无法处理更大的字节字符串（ascii）进行操作UTF-8设置（7 字节 v 8）。所以我需要申请decode在某个时刻得到一个U array.

我可以将它加载到“S”数组中genfromtxt:

In [258]: txt="Côte d'Ivoire"
In [259]: a=np.genfromtxt([txt.encode()],delimiter=',',dtype='S20')
In [260]: a
Out[260]: 
array(b"C\xc3\xb4te d'Ivoire",  dtype='|S20')

并申请decode到单个元素：

In [261]: print(a.item().decode())
Côte d'Ivoire

In [325]: print _
Côte d'Ivoire

Or use np.char.decode将其应用于数组的每个元素：

In [263]: np.char.decode(a)
Out[263]: 
array("Côte d'Ivoire", dtype='<U13')
In [264]: print(_)
Côte d'Ivoire

genfromtxt让我指定converters:

In [297]: np.genfromtxt([txt.encode()],delimiter=',',dtype='U20',
    converters={0:lambda x: x.decode()})
Out[297]: 
array("Côte d'Ivoire", dtype='<U20')

If the csv有字符串和数字的混合，这个converters方法将比np.char.decode。只需为每个字符串列指定转换器即可。

（请参阅我之前对 Python2 尝试的编辑）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

csv

NumPy

UTF8

使用 numpy.genfromtxt 在 Python 3 中加载 UTF-8 文件的相关文章

检测到通过 ChromeDriver 启动的 Chrome 浏览器

我正在尝试在 python 中使用 selenium chromedriver 来访问 www mouser co uk 网站然而从第一次拍摄开始它就被检测为机器人有人对此有解释吗此后我使用的代码 options Options
在 Pandas 中，如何从基于另一个数据框的数据框中删除行？

我有 2 个数据框一个名为 USERS 另一个名为 EXCLUDE 他们都有一个名为电子邮件的字段基本上我想删除 USERS 中包含 EXCLUDE 中包含电子邮件的每一行我该怎么做您可以使用boolean indexing
使用 Python 创建 MIDI

本质上我正在尝试从头开始创建 MIDI 并将它们放到网上我对不同的语言持开放态度但更喜欢使用Python 两种语言之一如果这有什么区别的话并且想知道我应该使用哪个库提前致谢看起来这就是您正在寻找的适用于 Python 的简单
numpy python 中的“AttributeError：'matrix'对象没有属性'strftime'”错误

我有一个维度为 72000 1 的矩阵该矩阵涉及时间戳我想使用 strftime 如下所示 strftime d m y 为了得到像这样的输出 11 03 02 我有这样一个矩阵 M np matrix timestamps 我使用了
字符串中的注释和注释中的字符串

我正在尝试使用 Python 和 Regex 计算 C 代码中包含的注释中的字符数但没有成功我可以先删除字符串以删除字符串中的注释但这也会删除注释中的字符串结果会很糟糕是否有机会通过使用正则表达式来询问不匹配注释中的字符串反之亦
使用 NLTK 在 Python 中获取大量名词（或形容词）；或 Python Mad Libs

Like 这个问题 https stackoverflow com questions 7439555 noun adjective etc word lists or dictionaries common words 我有兴趣按词性获取
将二维数组放入 Pandas 系列中

我有一个 2D Numpy 数组我想将其放入 pandas 系列而不是 DataFrame 中 gt gt gt import pandas as pd gt gt gt import numpy as np gt gt gt a np
Python中列表中两个连续元素的平均值

我有一个偶数个浮点数的列表 2 34 3 45 4 56 1 23 2 34 7 89 我的任务是计算 1 和 2 个元素 3 和 4 5 和 6 等元素的平均值在 Python 中执行此操作的快捷方法是什么 data 2 34 3 45
使用 Python 计算 Spark 中成对 (K,V) RDD 中每个 KEY 的平均值

我想与 Python 共享这个特定的 Apache Spark 解决方案因为它的文档非常贫乏我想通过 KEY 计算 K V 对存储在 Pairwise RDD 中的平均值示例数据如下所示 gt gt gt rdd1 take 10
ValueError：不支持连续[重复]

这个问题在这里已经有答案了我正在使用 GridSearchCV 进行线性回归的交叉验证不是分类器也不是逻辑回归我还使用 StandardScaler 对 X 进行标准化我的数据框有 17 个特征 X 和 5 个目标 y 观察约11
如何根据 HTTP 请求使用 Python 和 Flask 执行 shell 命令并流输出？

下列的这个帖子 https stackoverflow com questions 15092961 how to continuously display python output in a webpage 我能够tail f网页的日志
在相同任务上，Keras 比 TensorFlow 慢

我正在使用 Python 运行斩首 DCNN 本例中为 Inception V3 来获取图像特征我使用的是 Anaconda Py3 6 和 Windows7 使用 TensorFlow 时我将会话保存在变量中感谢 jdehesa 并
Python、subprocess、call()、check_call 和 returncode 来查找命令是否存在

我已经弄清楚如何使用 call 让我的 python 脚本运行命令 import subprocess mycommandline lumberjack sleep all night work all day subprocess cal
在 Spyder 的变量资源管理器中查看局部变量

我是 python 新手正在使用 Spyder 的 IDE 我欣赏它的一项功能是它的变量资源管理器然而根据一些研究我发现它只显示全局变量我找到的解决方法是使用检查模块 import inspect local vars def m
从 python 检测 macOS 中的暗模式

我正在编写一个 PyQt 应用程序我必须添加一个补丁以便在启用暗模式的 Macos 上可以读取字体 app QApplication Fix for the font colours on macos when running dark
sqlite3从打印数据中删除括号

我创建了一个脚本用于查找数据库第一行中的最后一个值 import sqlite3 global SerialNum conn sqlite3 connect MyFirstDB db conn text factory str c con
Python对象初始化性能

我只是做了一些快速的性能测试我注意到一般情况下初始化列表比显式初始化列表慢大约四到六倍这些可能是错误的术语我不确定这里的行话例如 gt gt gt import timeit gt gt gt print timeit timeit
通过 Web 界面执行 python 单元测试

是否可以通过 Web 界面执行单元测试如果可以如何执行 EDIT 现在我想要结果对于测试我希望它们是自动化的可能每次我对代码进行更改时抱歉我忘了说得更清楚 EDIT 这个答案此时已经过时了 Use Jenkins https j
如何使用Python保存“完整的网页”而不仅仅是基本的html

我正在使用以下代码来使用 Python 保存网页 import urllib import sys from bs4 import BeautifulSoup url http www vodafone de privat tarife r
python 中的 after() 与 update()

我是 python 新手开始使用 tkinter 作为画布到目前为止我使用 update 来更新我的画布但还有一个 after 方法谁能给我解释一下这个函数请举个例子两者之间有什么区别 root after integer c

随机推荐

收缩networkx中的节点列表

我有一本带有节点的字典 supernodes list nx connected components G1 的结果print supernodes is 1 2 3 5 8 6 7 9 10 12 13 4 11 14 15 如何将每个列
将 CNN Pytorch 中的预训练权重传递到 Tensorflow 中的 CNN

我在 Pytorch 中针对 224x224 大小的图像和 4 个类别训练了这个网络 class CustomConvNet nn Module def init self num classes super CustomConvNet s
设置类变量的Pythonic方法是什么？

也许我问错了问题我有这样的代码 class ExpressionGrammar Grammar def init self nonterminals terminals macros rules precedence nontermina
我可以使用 Excel javascript 添加创建工作簿吗？

Excel javascript 加载项是否有任何等效项可以完成我们在 Word 中使用 context application createDocument 所做的事情我在 Excel 应用程序对象中没有看到任何创建方法正如 MSFT
如何限制仅从 C# 中的外部类设置内部类的属性

我有这样的代码的核心 public class OuterClass public static InnerClass GetInnerClass return new InnerClass MyProperty 1 public clas
如何将 Notepad++ 配置为使用空格而不是制表符？

Notepad 不断插入制表符这后来弄乱了我的代码这种情况不仅发生在我按下 Tab 键时其他时候也会发生我希望它使用 4 个空格而不是制表符如何让 Notepad 插入空格而不是制表符前往优先菜单下的菜单命令Settings 然
Hive - hive 中的逆透视功能

我有两个表如下 Table A userid code code name property id 0001 1 apple id Y1234 0031 4 mango id G4567 0008 3 grape id H1209 0001
将 pandas 的宽变长

假设我在 pandas 中有以下数据框 AA BB CC date 05 03 1 2 3 06 03 4 5 6 07 03 7 8 9 08 03 5 7 1 我想将其转换为以下内容 AA 05 03 1 AA 06 03 4 AA 0
比较 C# 和 ColdFusion 之间的密码哈希值 (CFMX_COMPAT)

我有一个密码哈希值存储在一个表中并通过以下 Coldfusion 脚本放置在那里 Hash Encrypt Form UserPassword GetSiteVars EnCode 我正在尝试在 C 应用程序中添加一些外部功能我希望能够
将 php 变量发布到新窗口

我有一个由数据库动态构建的页面对于动态构建的每个内容我希望有一个弹出新窗口的链接并且该新窗口将根据单击第一页上的哪个项目来填充数据库中的列表我尝试过 POST 方法并将变量发布到 url 我知道这是危险的另一个独特之处是单击的链
MATLAB 求最大值一个结构体的

我试图找到结构的最大值但是max tracks matrix 不起作用它给我以下错误使用 horzcat 时出错 CAT 论证维度不一致你有想法吗这是我的结构的样子 tracks 1x110470 struct array with
Android Edittext光标不可见

我的应用程序中有一个编辑文本它将在 Froyo 或 Gingerbread 中正确显示光标但是在更高版本的 sdks 中光标是不可见的我在网上找到的解决方案是设置 android textCursorDrawable null 以便
Powershell 中的 CDPATH 功能？

有没有人实现了等效的行为bash 的 cdpath http www caliban org bash bashtips在 Powershell 中以前不知道CDPATH 很高兴知道我为 Powershell 编写了以下内容 funct
以对数刻度显示刻度标签 MS 图表 (log-log)

我在 Visual Studio 2015 C 中使用 MS Charts 创建了一个具有对数刻度两个轴的绘图见图我需要在 x 轴上添加更多网格线和相应的标签我想在 1 2 3 4 和 10 之间以及 10 到 100 20 30
对不受信任（自签名）HTTPS 的 AJAX 调用会默默失败

我想对使用自签名证书的安全服务器进行 AJAX 调用在使用我的应用程序的环境中这很好我可以向用户提供 CA 证书并让他们在使用应用程序之前安装它但是有时用户会在安装证书之前尝试访问该应用程序在这些情况下应用程序会默默地失败
如何将 React 应用程序部署到 Heroku

我已经使用 React 和 Node js 构建了一个单页天气应用程序但似乎无法将其部署到 Heroku 到目前为止我有在 Heroku 上创建了一个名为 Weather app react node 的新应用程序在 CLI 上登录
如何在Notepad++中将大写字母转换为小写字母

我主要使用 Notepad 进行编码如何将大写字母转换为小写字母反之亦然只需选择要更改的文本右键单击并根据需要选择大写或小写
将 PSD 格式转换为 Gimp 可以读取的格式的方法

我有一堆 PSD 文件还有更多我想将它们转换成我可以使用的格式我之前曾一些成功地使用 Gimp 读取 PSD 但这些文件无法正确读取有没有办法将 PSD 转换为 XCF 我尝试过 IrfanView 它可以正常显示 PSD 但无
如何在 Python 中将日期时间转换为 UTC 时间戳？

From http docs python org library time html http docs python org library time html 时间 mktime t 这是 localtime 的反函数它的论据是 s
使用 numpy.genfromtxt 在 Python 3 中加载 UTF-8 文件

我有一个从 WHO 网站下载的 CSV 文件 http apps who int gho data view main 52160 http apps who int gho data view main 52160 下载 CSV 格式的多

使用 numpy.genfromtxt 在 Python 3 中加载 UTF-8 文件

使用 numpy.genfromtxt 在 Python 3 中加载 UTF-8 文件 的相关文章

随机推荐

热门标签

使用 numpy.genfromtxt 在 Python 3 中加载 UTF-8 文件的相关文章