Python pandas dataframe 用其他系列填充 NaN

2024-01-08

我想使用列平均值和 var1 作为索引，基于控制表 (fillna_mean) 填充 DataFrame (df) 列 (var4) 中的 NaN 值。在数据帧中，我希望它们在 var1 上匹配。

我尝试用 fillna 做到这一点，但我没有让它完全发挥作用。如何以智能方式执行此操作，使用 df.var1 作为匹配 fillna Mean.var1 的索引？

df:

df = pd.DataFrame({'var1' : list('a' * 3) + list('b' * 2) + list('c' * 4) + list('d' * 3)
         ,'var2' : [i for i in range(12)]
         ,'var3' : list(np.random.randint(100, size = 12))
         ,'var4' : [1, 2, np.nan, 3, 2, np.nan, 1, 34, np.nan, np.nan, 12, 12]
     })

fillna_mean：

fillna = pd.DataFrame({'var1' : ['a', 'b', 'c', 'd'],
                       'mean' : [1, 3.5, 6.5, 10]})

最终结果是这样的：



var1 var2 var3  var4
a    0    69    1.0
a    1    17    2.0
a    2    83    1.0
b    3    12    3.0
b    4    36    2.0
c    5    68    6.5
c    6    13    1.0
c    7    30    34.0
c    8    23    6.5
d    9    82    10.0
d    10   32    12.0
d    11   19    12.0

预先感谢您的意见！

/swepab

您可以使用布尔索引 http://pandas.pydata.org/pandas-docs/stable/indexing.html和这个结合.map() http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.map.html method:

In [178]: fillna.set_index('var1', inplace=True)

In [179]: df.loc[df.var4.isnull(), 'var4'] = df.loc[df.var4.isnull(), 'var1'].map(fillna['mean'])

In [180]: df
Out[180]:
   var1  var2  var3  var4
0     a     0    40   1.0
1     a     1    97   2.0
2     a     2    34   1.0
3     b     3     6   3.0
4     b     4    19   2.0
5     c     5    47   6.5
6     c     6    65   1.0
7     c     7    29  34.0
8     c     8    48   6.5
9     d     9    88  10.0
10    d    10    40  12.0
11    d    11    23  12.0

解释：

In [184]: df.loc[df.var4.isnull()]
Out[184]:
  var1  var2  var3  var4
2    a     2    75   NaN
5    c     5    75   NaN
8    c     8    44   NaN
9    d     9    34   NaN

In [185]: df.loc[df.var4.isnull(), 'var1']
Out[185]:
2    a
5    c
8    c
9    d
Name: var1, dtype: object

In [186]: df.loc[df.var4.isnull(), 'var1'].map(fillna['mean'])
Out[186]:
2     1.0
5     6.5
8     6.5
9    10.0
Name: var1, dtype: float64

UPDATE:从 Pandas 0.20.1 开始.ix 索引器已弃用，取而代之的是更严格的 .iloc 和 .loc 索引器 http://pandas.pydata.org/pandas-docs/stable/whatsnew.html#deprecate-ix.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

Python pandas dataframe 用其他系列填充 NaN 的相关文章

多处理中的动态池大小？

有没有办法动态调整multiprocessing Pool尺寸我正在编写一个简单的服务器进程它会产生工作人员来处理新任务使用multiprocessing Process对于这种情况可能更适合因为工作人员的数量不应该是固定的但我需
Mypy 无法从文字列表推断项目的类型

我有一个变量x和一个文字列表例如 0 1 2 我想转换x这些文字之一如果x在列表中我将其退回否则我返回一个后备值 from typing import Literal Set Foo Literal 0 1 2 foos Set F
从 Azure ML 实验中访问 Azure Blob 存储

Azure ML 实验提供了通过以下方式读取 CSV 文件并将其写入 Azure Blob 存储的方法 Reader and Writer模块但是我需要将 JSON 文件写入 blob 存储由于没有模块可以执行此操作因此我尝试在Ex
使用 Boto3 以字符串形式打开 S3 对象

我知道使用 Boto 2 可以使用以下命令将 S3 对象作为字符串打开 get contents as string http boto readthedocs org en latest ref file html highlight c
如何通过 python 多处理利用所有核心

我一直在摆弄Python的multiprocessing现在已经使用了一个多小时的功能尝试使用并行化相当复杂的图形遍历函数multiprocessing Process and multiprocessing Manager import
使用 Paramiko 进行 DSA 密钥转发？

我正在使用 Paramiko 在远程服务器上执行 bash 脚本在其中一些脚本中存在与其他服务器的 ssh 连接如果我只使用 bash 不使用 Python 我的 DSA 密钥将被第一个远程服务器上的 bash 脚本转发并使用以连接
Python将文本文件解析为嵌套字典

考虑以下数据结构 HEADER1 key value key value HEADER2 key value key value HEADER3 key value HEADER4 key value key value 原始数据中没有缩进
Paste.httpserver 并通过 HTTP/1.1 Keep-alive 减慢速度；使用 httperf 和 ab 进行测试

我有一个基于paste httpserver 的Web 服务器作为HTTP 和WSGI 之间的适配器当我使用 httperf 进行性能测量时如果每次使用 num conn 启动一个新请求我每秒可以执行超过 1 000 个请求如果我使
查找 Pandas DF 行中的最短日期并创建新列

我有一个包含多个日期的表有些日期将为 NaN 我需要找到最旧的日期所以一行可能有 DATE MODIFIED WITHDRAWN DATE SOLD DATE STATUS DATE 等因此对于每一行一个或多个字段中都会有一个日期
pandas 相当于 np.where

np where具有向量化 if else 的语义类似于 Apache Spark 的when otherwise数据帧方法我知道我可以使用np where on pandas Series but pandas通常定义自己的 API
是否需要关闭没有引用它们的文件？

作为一个完全的编程初学者我试图理解打开和关闭文件的基本概念我正在做的一项练习是创建一个脚本允许我将内容从一个文件复制到另一个文件 in file open from file indata in file read out file
Ubuntu systemd 自定义服务因 python 脚本而失败

希望获得有关 Ubuntu 中的 systemd 守护进程服务的一些帮助我写了一个 python 脚本来禁用 Dell XPS 上的触摸屏这更像是一个问题而不是一个有用的功能该脚本可以工作但我不想一直启动它这就是为什么我想到编写
使用 Python 将连续日期分组在一起

Given dates datetime 2014 10 11 datetime 2014 10 1 datetime 2014 10 2 datetime 2014 10 3 datetime 2014 10 5 datetime 201
为什么 __dict__ 和 __weakref__ 类从未在 Python 中重新定义？

类创建似乎从来没有re 定义 dict and weakref class属性即如果它们已经存在于超类的字典中则它们不会添加到其子类的字典中但始终re 定义 doc and module class属性为什么 gt gt gt c
如何在亚马逊 EC2 上调试 python 网站？

我是网络开发新手这可能是一个愚蠢的问题但我找不到可以帮助我的确切答案或教程我工作的公司的网站用 python django 构建托管在亚马逊 EC2 上我想知道从哪里开始调试这个生产站点并检查存储在那里的日志和数据库我有帐户信
minizinc python 安装

我通过 anaconda 提示符在 python 上安装了 minizinc 就像其他软件包一样 pip install minizinc 该软件包表示已成功安装我可以导入该模块但是我正在遵循基本示例https minizinc py
Django 管理器链接

我想知道是否有可能如果可以的话如何将多个管理器链接在一起以生成受两个单独管理器影响的查询集我将解释我正在研究的具体示例我有多个抽象模型类用于为其他模型提供小型的特定功能其中两个模型是DeleteMixin 和GlobalMix
rpy2 无法加载外部库

希望有人能帮忙解决这个问题 R版本 2 14 1rpy2版本 2 2 5蟒蛇版本 2 7 3 一直在尝试在 python 脚本中使用 rpy2 加载 R venneuler 包该包以 rJava 作为依赖项 venneuler 和 rJa
pandas 中数据帧中的随机/洗牌行

我目前正在尝试找到一种方法来按行随机化数据框中的项目我在 pandas 中按列洗牌排列找到了这个线程在 pandas 中对 DataFrame 进行改组排列 https stackoverflow com questions 157
python从二进制文件中读取16字节长的双精度值

我找到了蟒蛇struct unpack 读取其他程序生成的二进制数据非常方便问题如何阅读16 字节长双精度数出二进制文件以下 C 代码将 1 01 写入二进制文件三次分别使用 4 字节浮点型 8 字节双精度型和 16 字节长双精度型

随机推荐

异步 - 留在当前线程上？

我读过埃里克利珀特的article http blogs msdn com b ericlippert archive 2010 10 29 asynchronous programming in c 5 0 part two whenc
设置 Vaadin 会话超时参数

我正在使用 Vaadin 7 1 7 但我不知道如何设置session timeout参数例如 1 分钟据我所知 Vaadin 7 x x 不会产生web xml 它用 VaadinServletConfiguration注释但似乎没
如何使用 browserify 包含非节点模块

我想在应用程序中使用依赖项管理并遇到了 require js 和 browserify 我无法决定选择哪一个这将是一个决定性因素任何人都可以告诉我如何将定制的 javascript 模块非节点模块包含到我的 js 中我发现 br
Android 上的自定义鼠标指针

当使用现代版本的 Android Honeycomb 或更高版本时如果硬件合适则支持显示鼠标指针例如在 ASUS Transformer 或 Toshiba AC100 笔记本电脑上是否有任何 API 允许在这些设备之一上运行的
如何使用 Mocha 和 Nock 重新测试相同的 URL？

我正在使用 Mocha Chai Sinon Proxyquire 和 Nock 对于这个特定的测试场景针对该场景提出这个问题希望多次测试完全相同的 URL 每次都在一个单独的测试中期望得到不同的响应例如没有商家 Feed 的响应
“漂白”文件中的这个 perl 行有什么作用？

我有一些已被漂白的 perl 文件不知道它是否来自 ACME Bleach 或类似的东西我对 Perl 不太熟悉我想了解启动文件的单行代码如何解码后面的空格 lt lt y r n d pack b eval die 文件的其余部
Spring security ldap：找不到元素“ldap-authentication-provider”的声明

遵循 spring security 文档 http static springsource org spring security site docs 3 0 x reference ldap html http static sprin
如何使用 ng-click 获取 DOM 元素

我有一些元素例如
add_axes 和 add_subplot 之间有什么区别？

在之前的一个answer https stackoverflow com a 43283905有人推荐我使用add subplot代替add axes正确显示轴但搜索文档我无法理解何时以及为何应该使用这些函数之一谁能解释一下这些差异吗
Python 中 numpy 整数数组的整数和元素的类型提示

我有一个函数应该接受带有整数值的参数比方说 def print age in another format age int gt float 但是此代码适用于以下环境 numpy被大量使用因此用户可能会编写如下内容 a np arra
构造函数中冒号后面的变量[重复]

这个问题在这里已经有答案了我仍在学习 C 并试图理解它我正在查看一些代码并看到 point3 float X float Y float Z x X y Y z Z lt what is this used for 构造函数参数旁边的
在 jQuery 中获取下一个兄弟的最简洁的方法

http jsfiddle net mplungjan H9Raz http jsfiddle net mplungjan H9Raz 经过对 next a 等的相当多的测试我终于找到了一个有效的我只是想知道为什么 next a 没有
强制方向改变有时不起作用

当在我的应用程序中按下某个按钮时视图应该将方向从纵向更改为景观当用户回来时视图控制器应该变回纵向但有时方向不会改变或使用了错误的视图框架这是我的代码 void btnSignClicked CustomSignButton b
SQL Server：使用带 ISOWK 参数的 DATEPART 将一周的第一天更改为星期日

我需要得到周数对于某些日期集例如对于 2016 年 1 月它应该类似于 Week Number 53 lt for dates from Jan 1 to Jan 2 1 lt for dates from Jan 3 to Jan
我的一项迁移未在 Laravel 4 中使用 php artisan 命令运行

我在 Laravel 4 中运行了几个迁移我使用php artisan migrate rollback and php artisan migrate用于填充表的命令有趣的是我的一项迁移已停止工作无法回滚所有其他人都工作正常据
如何在 Dart 中到达最后一个午夜？

我想这在大多数语言中都是很常见的任务但是我不清楚如何在我的 Flutter 应用程序中完成此任务如何在 Dart 中检索最后一个午夜的 DateTime 对象或者可能是今天明天昨天的任何特定时间这应该做同样的事情 var now
使用绑定挂载运行容器化 MongoDB

我在 OCI 容器 docker io library mongo 中运行 MongoDB 我想在容器内的 data db 处挂载一个主机目录 Kubernetes 术语中的 hostPath 挂载我在 Fedora Silverblue
@Value 不在扩展其他类的类中工作

是否可以使用 Value在扩展另一个类的类中下面是相关的代码片段在里面Lo Controller类它工作完美但在Lo DisplayHandler总是返回null 我能想到的唯一原因是因为它依赖于另一个类该类没有用注释 Compon
Dialogflow、Google 帐户链接和 ASP.NET Core API (Webhook)

我是一名学生正在为我的高级设计项目开发 Google Home 的 NLP 应用程序我特别想知道实现 Google 帐户链接的正确方法是什么 Google 帐户链接为通过 Dialogflow 注册验证用户提供了什么即从初始查询到
Python pandas dataframe 用其他系列填充 NaN

我想使用列平均值和 var1 作为索引基于控制表 fillna mean 填充 DataFrame df 列 var4 中的 NaN 值在数据帧中我希望它们在 var1 上匹配我尝试用 fillna 做到这一点但我没有让它完全发挥

Python pandas dataframe 用其他系列填充 NaN

Python pandas dataframe 用其他系列填充 NaN 的相关文章

随机推荐

热门标签