使用 Pandas 从 CSV 读取整数时如何优雅地回退到“NaN”值？

2023-12-26

使用时read_csv对于 Pandas，如果我想要将给定的列转换为类型，格式错误的值将中断整个操作，而不会指示有问题的值。

例如，运行如下内容：

import pandas as pd
import numpy as np


df = pd.read_csv('my.csv', dtype={ 'my_column': np.int64 })

将导致堆栈跟踪以错误结束：

ValueError: cannot safely convert passed user dtype of <i8 for object dtyped data in column ...

如果我有行号或错误消息中的违规值，我可以将其添加到已知的列表中NaN价值观，但这样我就无能为力了。

有没有办法告诉解析器忽略失败并返回np.nan在这种情况下？

Post Scriptum：有趣的是，在解析后没有任何类型建议（没有dtype争论），d['my_column'].value_counts()似乎推断出dtype右并放置np.nan自动正确，即使实际dtype因为该系列是通用的object几乎所有绘图和统计操作都会失败

感谢评论，我意识到整数没有 NaN http://pandas.pydata.org/pandas-docs/stable/gotchas.html#support-for-integer-na，这让我非常惊讶。因此我转而转换为浮点数：

import pandas as pd
import numpy as np


df = pd.read_csv('my.csv', dtype={ 'my_column': np.float64 })

这给了我一个可以理解的错误消息，其中包含失败转换的值，以便我可以将失败值添加到na_values:

df = pd.read_csv('my.csv', dtype={ 'my_column': np.float64 }, na_values=['n/a'])

这样我最终可以以与可视化和统计功能配合使用的方式导入 CSV：

>>>> df['session_planned_os'].dtype
dtype('float64')

一旦你能够找到正确的na_values，您可以删除dtype论证来自read_csv。类型推断现在将正确发生：

df = pd.read_csv('my.csv', na_values=['n/a'])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

csv

pandas

dataprocessing

使用 Pandas 从 CSV 读取整数时如何优雅地回退到“NaN”值？的相关文章

numpy.linalg.inv() 是否给出了正确的矩阵逆？编辑：为什么 inv() 给出数值错误？

我有一个矩阵形状 4000 4000 我想取逆矩阵我对逆矩阵的直觉因如此大的矩阵而崩溃起始矩阵的值大小为e 10 具有以下值 print matrix给出一个输出 2 19885119e 10 2 16462810e 10 2 1306
如果新文件不存在则写入新文件，如果存在则追加到文件

我有一个程序可以写入用户的highscore到一个文本文件该文件由用户选择时命名playername 如果具有该特定用户名的文件已经存在那么程序应该附加到该文件以便您可以看到多个highscore 如果具有该用户名的文件不存在例如
如何在python包中包含.pyx文件

我在我的包中使用了 cythonpyirt https github com 17zuoye pyirt 但是当我将其发布到 pypi 时 pyx 文件不包含在 tar gz 中我认为这一定与安装文件有关但是我找不到解决这个问题的方法
Python - 在先前已在全局范围内查找的函数内重新分配名称

为什么我在下面的第三个代码中出现错误但在前两个代码中却没有出现错误我使用的是 Python 3 6 0 Anaconda 4 3 1 64 位 Jupyter Code 1 c 100 def fib c 20 a c print a
ctypes.ArgumentError：不知道如何转换参数

我在C库中定义了一个函数如下所示 int Test char str1 int id1 char str2 float val float ls 我想在Python中使用它所以我编写了以下Python代码 str1 a str2 b i
seaborn 未在定义的子图中绘制

我正在尝试用这段代码并排绘制两个图表 fig ax1 ax2 plt subplots 1 2 sns displot x X train Age hue y train ax ax1 sns displot x X train Fare
如何读取 sql 查询到 pandas dataframe / python / django

我在下面使用这个views py获取应用程序 from django db import connection def test request cursor connection cursor sql SELECT x n from ta
Altair 条形图具有可变宽度的条形？

我正在尝试在 Python 中使用 Altair 制作条形图其中条形的宽度根据源数据帧列中的数据而变化最终目标是获得如下所示的图表条形的高度对应于每种能源技术的边际成本在源数据框中以列形式给出条形宽度对应于每种能源技术的容量也以
如何在Python模拟中调用模拟方法

我想创建一个模拟方法来调用被模拟的底层方法我正在想象类似以下的内容但我找不到任何有关模拟对象的文档该对象包含对被模拟对象的引用我将其表示为 wrapped method foo below from mock import patc
中断QThread睡眠

我想知道如何暂停 QThread 然后在收到信号时恢复我已阅读并知道我可以做这样的事情 def run self self ready False while not self ready self sleep 1 QtCore Slot
继承类中的python __init__方法[重复]

这个问题在这里已经有答案了我想为子类提供一些额外的属性而不必显式调用新方法那么有没有办法给继承的类一个 init 不重写的类型方法 init 父类的方法我编写下面的代码纯粹是为了说明我的问题因此属性等的命名很糟糕 class in
您能否从函数、args 和 kwargs 确定变量将如何分配？

我有一些样板逻辑我想包装几个具有相同可选关键字的函数现在看起来像下面的代码但是这仅处理 opt key 作为关键字传递的情况而不是按位置传递解决这个问题的一种方法是了解如何解决参数分配是否有一些元函数接受函数 args 和 k
仅打印字符串中的元音

我是Python新手我正在尝试打印字符串中的所有元音因此如果有人输入嘿一切都好吗所有元音都需要打印但我不知道怎么做所以这不是计算元音而是打印元音现在我已经得到了这个 sentence input Enter your s
VS Code Pylance 不突出显示变量和模块

我正在使用带有 Python 和 Pylance 扩展的 VS Code 我遇到的问题是 Pylance 扩展没有对模块和数据框等内容进行语法突出显示我希望顶部的模块为绿色 df 变量为蓝色我正在使用默认的深色颜色主题这是我的 VS
将 Python 3 的“范围”“向后移植”到 Python 2 是一个坏主意吗？

我的一门课程要求用 Python 完成作业作为练习我一直使用如下脚本确保我的程序可以在 Python 2 和 Python 3 中运行 bin bash Run some PyUnit tests python2 test py pyt
SQL查询中的Python列表作为参数[重复]

这个问题在这里已经有答案了我有一个 Python 列表比如说 l 1 5 8 我想编写一个 SQL 查询来获取列表中所有元素的数据例如 select name from students where id IN THE LIST l
python 中的优化标准化

在优化过程中对输入参数进行归一化使它们处于同一数量级通常会很有帮助这样收敛效果会更好例如如果我们想要最小化 f x 而合理的近似值是 x0 1e3 1e 4 则将 x0 0 和 x0 1 归一化到大约相同的数量级可能会有所帮助
如何使用 Python 3 在 OpenCV 3 上正确加载 cv2.KeyPoint 和描述符？

有一天我不得不恢复一个使用 OpenCV 3 和 Python 2 7 的旧项目在此代码中要加载 cv2 KeyPoint 我执行以下操作 import numpy as np import cPickle import cv2 ke
如果我更改当前工作目录，为什么 __file__ 会变成无效路径？

执行中test py from tmp import os print os path abspath file os chdir var print os path abspath file output tmp test py var
Mac 上的 PythonXY？

如何在 Mac OS X Lion 上安装 Python 我开始了它应该能够通过 macports 但无论如何我找不到 mac ports 网站上所述的端口 pythonXY 我对 MAC 和 pythonXY 都不太了解但在 pyth

随机推荐

libclang：添加编译器系统包含路径（Windows 中的 Python）

按照此question https stackoverflow com questions 37098725 parsing with libclang unable to parse certain tokens python in wi
Nodejs HTTP Createserver - 从 html 文件提供服务时不可预测的 javascript 执行

当我从我的 Node js Web 服务器提供具有一些 JavaScript 的 html 文件时与我从外部源包含相同的 JavaScript 时相比我得到了不同的结果我已经验证使用 javascript 内联或外部源直接打开 ht
RecyclerView 项目在片段之间切换后消失

我的应用程序中有 4 个片段它们在 NavActivity 中管理 protected void onCreate Bundle savedInstanceState super onCreate savedInstanceState s
Hibernate不创建连接表

我遇到了一个以前从未发生过的问题我有ManyToMany关系 Hibernate 不会创建连接表它仅创建实体表我正在将 SpringDataJpa 与 MySQL 一起使用医生实体 Entity Table name doctors
从等高线生成高度图的算法是什么？

我正在寻找插入一些轮廓线来生成 3D 视图轮廓不存储在图片中轮廓的每个点的坐标仅存储在 std vector 中对于凸轮廓似乎我自己没有检查通过使用两个最接近轮廓的两个最近点之间的距离可以轻松计算高度线性插值我的轮廓不一定是
何时在 clojure（或 lisp）中使用感叹号？

他们说在命名不纯函数时使用感叹号但我不太理解不纯的功能他们是吗函数更改其参数的状态通过重置更改 java object methods 函数发生副作用例如打印吐出 or both 显然官方的 clojure api 并
无法解析的外部符号（OpenGL 和 C++）

好的所以我正在编写一个小项目没什么复杂的它只有几个类正如标题所暗示的它使用 OpenGL 目前还没有真正的主要功能我在使用 gl 函数调用的地方都包含了 glew h 并将其添加到链接器输入 glew32 lib 中然而
如何在python中使用套接字而无需等待

我用Python创建了一个游戏该游戏由几条蛇组成每条蛇由不同的计算机控制每台计算机都会向服务器计算机发送蛇所指向的角度问题是该命令 client mess client socket recv 1024 极大的抑制了服务器的运行导
使用 aws-sdk 从 javascript(reactjs) 调用 lambda(node/express - 无服务器快速路由)

Reactjs const result await invokeLambda points 调用Lambda js const AWS require aws sdk AWS config update accessKeyId id se
调试时忽略 Visual Studio 中的项目

在 Visual Studio 中如果您有一个包含许多项目的解决方案是否可以指示调试器忽略某些项目在这个意义上将它们视为外部 DLL 吗我们有很多我想调试的帮助程序代码例如如果我处于函数调用中并且进入其中我想跳过 IoC 代
数组的 IsEmpty() 函数

我想测试我的数组是否为空我尝试使用该功能IsEmpty 但函数总是返回False 并且不要输入 if 条件我的代码如下 Sub Freeze Dim tab freeze as variant If IsEmpty tab freeze
Scala mixin 到类实例

Scala 中是否可以对类实例进行一些混合例如我有一些 MyClass 实例var x new MyClass我想在某些方法或特征上扩展它而不复制它 Edit 我正在寻找延伸的方法x当它被实例化之后因此例如在函数方法中得到x作为参
Facebook 转化事件是否有类似于 Google Analytics 的回调功能？

我在文档中找不到转化跟踪中是否有任何回调功能 https developers facebook com docs ads for websites tag api https developers facebook com docs ad
使用“;”下载文件或文件名中的“#”会破坏文件名

我有一个名为 AttachmentDownload aspx 的文件并且 Page Load 方法内部有这样的代码可以提供下载文件除包含的名称外所有名称均可在 IE 中正常工作或者他们允许用户以 AttachmentDownl
github 搜索限制结果

我需要在 Github 上进行大量搜索以获取论文中的统计数据例如我需要在 GitHub 上探索大量 Android 项目但该网站将搜索结果限制为 1000 个例如还使用Java GitHub API我尝试使用该方法库org ecl
从 DNX 迁移到 ASP.NET Core 2.0 时 API 丢失/更改

我一直致力于将应用程序从过时的 DNX 迁移到 ASP NET Core 2 0 在这样做的过程中我们发现命名空间和 API 几乎没有变化例如Microsoft AspNet to Microsoft AspNetCore 尽管我已经能
android listview 显示所有可用项目，无需滚动静态标题

我在尝试使某种布局发挥作用时遇到了一些困难我想要一个列表列表不必是可滚动的但应该完整显示但是如果总内容高于屏幕页面本身应该能够滚动其中包含列表
ReactiveUI 与 MvvmCross

标题说明了一切根据您的经验这两个框架之间的主要区别是什么我们什么时候应该使用其中一种而不是另一种预期用途跨平台开发 Windows 8 iOS Android WindowsRT Mac 我在同一个跨平台解决方案中同时使用 Mvv
验证类实例属性的正确方法

有一个像这样的简单 Python 类 class Spam object init self description value self description description self value value 我想检查以下限制
使用 Pandas 从 CSV 读取整数时如何优雅地回退到“NaN”值？

使用时read csv对于 Pandas 如果我想要将给定的列转换为类型格式错误的值将中断整个操作而不会指示有问题的值例如运行如下内容 import pandas as pd import numpy as np df pd rea

使用 Pandas 从 CSV 读取整数时如何优雅地回退到“NaN”值？

使用 Pandas 从 CSV 读取整数时如何优雅地回退到“NaN”值？ 的相关文章

随机推荐

热门标签

使用 Pandas 从 CSV 读取整数时如何优雅地回退到“NaN”值？的相关文章