pandas 重新定义 isnull 以忽略 'NA'

2023-12-24

作为数据分析练习的一部分，我正在将 Excel 工作表读入 pandas 数据框。

df = pd.ExcelFile('file.xlsx').parse(0)
nullcounts = df.isnull().sum().to_frame('null_records')

为我的数据帧中的每个系列生成一个带有空计数的漂亮帧。但是如果字符串“NA”出现在一行数据中，我不希望isnull返回操作True.

有没有一种简单的方法可以做到这一点，而无需对特定列/数据帧的规则进行硬编码？

编辑：看来我的源数据中的 NA 在读入 pandas 时被忽略，因为当我加载数据并进行视觉比较时，我看到NaNexcel中哪里有NA.

If use read_excel http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html可以定义哪些值被转换为NaN带参数keep_default_na and na_values:

df = pd.read_excel('file.xlsx')
print (df)
     a    b
0  NaN  NaN
1  3.0  6.0

nullcounts = df.isnull().sum().to_frame('null_records')
print (nullcounts)
   null_records
a             1
b             1

df = pd.read_excel('file.xlsx',keep_default_na=False,na_values=['NaN'])
print (df)
    a    b
0  NA  NaN
1   3  6.0

nullcounts = df.isnull().sum().to_frame('null_records')
print (nullcounts)
   null_records
a             0
b             1

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

pandas 重新定义 isnull 以忽略 'NA' 的相关文章

ca 证书 Mac OS X

我需要在emacs 上安装offlineimap 和mu4e 问题是配置当我运行 Offlineimap 时我得到 OfflineIMAP 6 5 5 Licensed under the GNU GPL v2 v2 or any la
Paramiko SSHException 通道已关闭

我一直在使用 Paramiko 在 Linux Windows 机器上发送命令它可以很好地在 Ubuntu 机器上远程执行测试但是它不适用于 Windows 7 主机以下是我收到的错误 def unit for event self
使用多级解决方案计算二维网格中的最近邻

我有一个问题在 x y 大小的网格中我提供了一个点并且我需要找到最近的邻居在实践中我试图在 pygame 中找到距离光标最近的点该点跨越颜色距离阈值计算如下 sqrt rgb1 0 rgb2 0 2 rgb1 1 rgb2 1
在Python中以交互方式执行多行语句

我是 Python 世界的新手这是我用 Python 编写的第一个程序我来自 R 世界所以这对我来说有点不直观当我执行时 In 15 import math import random random random math sqrt
Django 不会以奇怪的错误“AttributeError: 'module' object has no attribute 'getargspec'”启动

我对 Django 的内部结构有点缺乏经验所以我现在完全陷入困境它昨天起作用了但我不记得我改变过任何重要的东西当我转身时DEBUG True任何恰好位于列表中第一个的模块上都有堆栈跟踪 Traceback most recent c
NumPy 和 SciPy - .todense() 和 .toarray() 之间的区别

我想知道使用是否有什么区别优点缺点 toarray vs todense 在稀疏 NumPy 数组上例如 import scipy as sp import numpy as np sparse m sp sparse bsr mat
张量流和线程

下面是来自 Tensorflow 网站的简单 mnist 教程即单层 softmax 我尝试通过多线程训练步骤对其进行扩展 from tensorflow examples tutorials mnist import input dat
Tensorflow 不分配完整的 GPU 内存

Tensorflow 默认分配所有 GPU 内存但我的新设置实际上只有 9588 MiB 11264 MiB 我预计大约 11 000MiB 就像我的旧设置一样张量流信息在这里 from tensorflow python client
在 Linux 上的 Python 中使用受密码保护的 Excel 工作表

问题很简单我每周都会收到一堆受密码保护的 Excel 文件我必须解析它们并使用 Python 将某些部分写入新文件我得到了文件的密码当在 Windows 上完成此操作时处理起来很简单我只需导入 win32com 并使用 clie
在 iPython/pandas 中绘制多条线会生成多个图

我试图了解 matplotlib 的状态机模型但在尝试在单个图上绘制多条线时遇到错误据我了解以下代码应该生成包含两行的单个图 import pandas as pd import pandas io data as web aapl
Python 3在for循环中更改字典键的值不起作用

我的 python 3 代码没有按预期工作 def addFunc x y print x y def subABC x y z print x y z def doublePower base exp print 2 base exp d
Pandas groupby apply 执行缓慢

我正在开发一个涉及大量数据的程序我正在使用 python pandas 模块来查找数据中的错误这通常工作得非常快然而我当前编写的这段代码似乎比应有的速度慢得多我正在寻找一种方法来加快速度为了让你们正确测试它我上传了一段相当大的
PyArmor - 打包为一个可执行文件

当我执行此命令时您好使用 PyArmor pyarmor pack main py 它将它打包到一个名为的文件夹中dist里面包含我的 exe 以及许多 Python 扩展文件据我所知 PyArmor 使用 PyInstaller 来
Jupyter Notebook 中的深色模式绘图 - Python

我正在使用 Jupyter Notebook 目前正在使用 JupyterThemes 的深色日光主题我注意到我的绘图不是处于黑暗模式并且文本仍然是黑色并且在日光照射的背景上无法读取 JupyterThemes 的自述文件建议在 ipy
在seaborn中对箱线图x轴进行排序

我的数据框round data看起来像这样 error username task path 0 0 02 n49vq14uhvy93i5uw33tf7s1ei07vngozrzlsr6q6cnh8w 39 png 1 0 10 n49vq
更换壳牌管道[重复]

这个问题在这里已经有答案了在 subprocess 模块的 Python 2 7 文档中我找到了以下片段 p1 Popen dmesg stdout PIPE p2 Popen grep hda stdin p1 stdout stdo
Python 导入非常慢 - Anaconda python 2.7

我的 python import 语句变得非常慢我使用 Anaconda 包在本地运行 python 2 7 导入模块后我编写的代码运行得非常快似乎只是导入需要很长时间例如我使用以下代码运行了一个 tester py 文件 imp
如何使用 os.chdir 转到减去最后一步的路径？

例如一个方法传递了一个路径作为参数这个路径可能是 C a b c d 如果我想使用 os chdir 更改为 C a b 怎么办 c 没有最后一个文件夹 os chdir 可以接受命令吗 os chdir 可以采取作为论点是的然
如何在Tensorflow中保存估计器以供以后使用？

我按照教程 TF Layers 指南构建卷积神经网络以下是代码 https github com tensorflow tensorflow blob r1 1 tensorflow examples tutorials layers
如何更改matplotlib中双头注释的头大小？

Below figure shows the plot of which arrow head is very small 我尝试了下面的代码但它不起作用它说引发 AttributeError 未知属性 s k 属性错误未知属性头宽

随机推荐

调整 Eigen::Ref 大小的解决方法

我想使用 Eigen Ref 来使用 Eigen Matrix 参数来实现非模板函数我的问题是在这些函数中我可能必须调整 Eigen Ref 引用的矩阵的大小我知道一般而言不应调整 Eigen Ref 的大小因为它可以映射到表
如何水平对齐多个图像（连续）？

如何水平对齐多个图像它们不必适合宽度屏幕相反我想让它们超过后者的宽度如果这有意义的话我检查了类似问题的很多答案但找不到任何可以解决我的问题的答案 Html div img src Content Images Personal
Crystal Report：“文件对于附件来说太大”错误

我是水晶报表服务器的新手我在这里解释错误的详细信息我正在使用 SAP Business Objects CMC 为我的应用程序生成报告下面是图像中的版本详细信息当我尝试生成文件大小超过 1MB 的报告文件时它会抛出以下错误 Err
如何在 Facebook Marketing API 上检查营销活动的交付状态

我正在用 Python 做一个关于这个的小应用程序我使用的是 effective status 字段但它仅显示它是否已暂停我想检查活动是否正在运行 Thanks effective status 为您提供此活动的有效状态对于 Cam
在Python中创建一个螺旋数组？

我和我的伙伴试图用 python 创建一个有趣的游戏其中输入数组的元素以螺旋方式访问我尝试了几种方法如下所示 source https stackoverflow com a 398302 5717589 def spiral X Y
通过 eclipse 插件访问项目构建路径

我需要以编程方式检查项目的构建路径是否已包含指定的库这是一个快速修复建议以了解这是否已经修复并且不会成为问题我可以访问当前的IInvocationContext 因此在某些拐角处到相应的IProject object 如何检查
使用 Docker 的 artifacts-credprovider 和 VSS_NUGET_EXTERNAL_FEED_ENDPOINTS

也许您可以帮助我使用私人 NuGet feed 进行身份验证我已经花了一天时间研究不同的解决方案并注意到这个仓库 https github com microsoft artifacts credprovider 但我仍在努力完成它我使
Perl 挑战 - 目录迭代器

有时您会听到关于 Perl 的说法可能有 6 种不同的方法来解决同一问题优秀的 Perl 开发人员通常具有合理的见解可以在各种可能的实现方法之间做出选择举一个 Perl 问题的例子一个简单的脚本它递归地迭代目录结构查找最近修改
自定义验证器在 FormView 中工作吗？

我通过谷歌搜索发现很多人都在为这个问题苦苦挣扎但我仍然没有找到正确的答案 https i stack imgur com 15jen png https i stack imgur com 15jen png 我有一个表单视图需要检查语
Django ORM 中 ImageField 的默认图像

我正在使用一个ImageField将个人资料图片存储在我的模型上如果没有定义图像如何设置它返回默认图像我还没有尝试过这个但我相对确定您可以将其设置为您所在领域的默认值 pic models ImageField upload to
是否有适用于 Delphi-XE 的 LockBox 版本

在哪里可以找到适用于 Delphi XE 的 LockBox 版本有 Delphi 2010 版本可用Songbeamer com http www songbeamer com delphi 根据我将 Abbrvia 移植到 Delph
如何生成给定集合的幂集？

我正在为面试而学习我在网上的数学类别下偶然发现了这个问题生成给定集合的幂集 int A 1 2 3 4 5 int N 5 int Total 1 lt lt N for int i 0 i lt Total i for int j
DataGridView 在最后一行之后显示一些额外的空间

我有一个Panel我在其上放置了一个控件DataGridView控件显示来自 SQL Server 的数据它工作得很好除了当我将滚动条移动到底部时出现不必要的空间我缩短了高度但空间仍然存在 My DataGridView以编程方式
(sql) 当数据类型为文本时如何使用 count() 方法？

select count category from list where category like action 上面是我想要运行的查询但是当我运行该查询时我得到数据类型错误有没有其他方法count 或者我该如何使用coun
寻找将变量插入对象（如果不为空）的简写

我经常有几个命名变量如果它们不为空或未定义我想将它们放入一个对象中 JavaScript 有几个很好的构建对象的快捷方式所以我想一定有一个适合这个用例的快捷方式我通常会做这样的事情但它是如此冗长 function foo a b
表变量可以用在 select 语句的 where 子句中吗？

我有一个正在执行两步查询的存储过程第一步是从表中收集 VARCHAR2 类型字符的列表并将它们收集到表变量中定义如下 TYPE t cids IS TABLE OF VARCHAR2 50 INDEX BY PLS INTEGER v
多对多自引用表

有没有好的方法来实现单表中行之间的多对多关系示例存储单词同义词的表 list of words CREATE TABLE word id integer PRIMARY KEY word varchar 32 NOT NULL UNIQ
将文件 bin\EntityFramework.SqlServer.xml 复制到 ..\bin\EntityFramework.SqlServer.xml 时出错失败

当我尝试发布 ASP NET MVC 4 项目时出现以下错误错误 1 将文件 bin EntityFramework SqlServer xml 复制到 obj Debug Package PackageTmp bin EntityFr
在C++中通过迭代器从向量中获取相邻的元素对

我想迭代向量中的所有相邻对元素例如如果我有一个向量 1 2 3 4 我希望我的迭代器返回以下内容 1 2 2 3 3 4 我知道如何使用以下命令一次迭代一个元素 vector
pandas 重新定义 isnull 以忽略 'NA'

作为数据分析练习的一部分我正在将 Excel 工作表读入 pandas 数据框 df pd ExcelFile file xlsx parse 0 nullcounts df isnull sum to frame null record

pandas 重新定义 isnull 以忽略 'NA'

pandas 重新定义 isnull 以忽略 'NA' 的相关文章

随机推荐

热门标签