python pandas dataframe：用条件平均值填充nans

2024-03-29

我有以下数据框：

import numpy as np 
import pandas as pd
df = pd.DataFrame(data={'Cat' : ['A', 'A', 'A','B', 'B', 'A', 'B'],
                        'Vals' : [1, 2, 3, 4, 5, np.nan, np.nan]})

    Cat   Vals
0   A     1
1   A     2
2   A     3
3   B     4
4   B     5
5   A   NaN
6   B   NaN

我想要索引5 and 6根据“Cat”列填充“Vals”的条件平均值，即2 and 4.5

下面的代码工作正常：

means = df.groupby('Cat').Vals.mean()
for i in df[df.Vals.isnull()].index:
    df.loc[i, 'Vals'] = means[df.loc[i].Cat]

    Cat   Vals
0   A     1
1   A     2
2   A     3
3   B     4
4   B     5
5   A     2
6   B   4.5

但我正在寻找更好的东西，比如

df.Vals.fillna(df.Vals.mean(Conditionally to column 'Cat'))

编辑：我发现这个，短了一行，但我仍然不满意：

means = df.groupby('Cat').Vals.mean()
df.Vals = df.apply(lambda x: means[x.Cat] if pd.isnull(x.Vals) else x.Vals, axis=1)

我们希望“联合”Cat缺少 NaN 位置的值。在 Pandas 中，此类关联始终通过索引完成。所以很自然地设置Cat作为索引：

df = df.set_index(['Cat'])

一旦完成此操作，那么fillna按预期工作：

df['Vals'] = df['Vals'].fillna(means)

回来Cat到一列，你当然可以使用reset_index:

df = df.reset_index()

import pandas as pd
import numpy as np
df = pd.DataFrame(
    {'Cat' : ['A', 'A', 'A','B', 'B', 'A', 'B'], 
     'Vals' : [1, 2, 3, 4, 5, np.nan, np.nan]})

means = df.groupby(['Cat'])['Vals'].mean()
df = df.set_index(['Cat'])
df['Vals'] = df['Vals'].fillna(means)
df = df.reset_index()
print(df)

yields

  Cat  Vals
0   A   1.0
1   A   2.0
2   A   3.0
3   B   4.0
4   B   5.0
5   A   2.0
6   B   4.5

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

NaN

Fill

python pandas dataframe：用条件平均值填充nans 的相关文章

为什么方法无法访问类变量？

我试图理解Python中的变量作用域除了我不明白为什么类变量不能从其方法访问的部分之外大多数事情对我来说都很清楚在下面的例子中mydef1 无法访问a 但如果a可以在全局范围类定义之外声明 class MyClass1 a 25
如何有条件地组合两个相同形状的 numpy 数组

这听起来很简单但我想我把它想得太复杂了我想创建一个数组其元素是从两个形状相同的源数组生成的具体取决于源数组中哪个元素更大为了显示 import numpy as np array1 np array 2 3 0 array2 np
对打开文件的脚本进行单元测试

我编写了一个脚本它打开一个文件读取内容并进行一些操作和计算并将它们存储在集合和字典中我该如何为这样的事情编写单元测试我的问题具体是我会测试文件是否打开文件很大这是unix字典文件我如何对计算进行单元测试我真的必须手动计算
无法将较大的 blob 上传到 Azure：azure.core.exceptions.ServiceRequestError：操作未完成（写入）(_ssl.c:2317)

我正在尝试使用 Python SDK 将一些较大的 blob gt 50MB 上传到我的 Azure 存储容器 connect str os environ AZURE STORAGE CONNECTION STRING blob serv
将 Django 表单中的所有 CharField 表单字段输入转换为小写

我使用 Django 表单进行用户注册用户可以在其中输入优惠券代码我希望在优惠券代码字段中输入的所有字符都转换为小写我尝试过在保存方法自定义清理方法和自定义验证器中使用 lower 但这些方法没有运气下面是我的代码 class S
如何在 openpyxl 中设置或更改表格的默认高度

我想通过openpyxl更改表格高度并且我希望首先默认一个更大的高度值然后我可以设置自动换行以使我的表格更漂亮但我不知道如何更改默认高度唯一的到目前为止我知道更改表格高度的方法是设置 row dimension idx heigh
使用 Python 解析 XML，解析外部 ENTITY 引用

在我的 S1000D xml 中它指定了一个带有对公共 URL 的引用的 DOCTYPE 该 URL 包含对包含所有有效字符实体的许多其他文件的引用我使用 xml etree ElementTree 和 lxml 尝试解析它并得到解析错
熊猫记忆

我有冗长的计算我重复了很多次因此我想使用记忆诸如jug http packages python org Jug and joblib http packages python org joblib memory html 与Pan
如何像在浏览器中一样检索准确的 HTML

我正在使用 Python 脚本来呈现网页并检索其 HTML 它适用于大多数页面但对于其中一些页面检索到的 HTML 不完整我不太明白为什么这是我用来废弃此页面的脚本由于某种原因每个产品的链接不在 HTML 中 Link http
如何解码 dtype=numpy.string_ 的 numpy 数组？

我需要使用 Python 3 解码按以下方式编码的字符串 gt gt gt s numpy asarray numpy string hello nworld gt gt gt s array b hello nworld dtype S1
如何在 Keras 中使用部分输入进行训练，其余部分用于损失函数

我是 Keras 新手正在尝试实现神经网络机器学习模型输入张量看起来像 X1 X2 和输出 Y 注意 X1 和 X2 是相关的在模型中只有 X1 将用于训练但 X1 和 X2 都将传递给损失函数该损失函数是 X1 X2 y pr
从 python 中的缩进文本文件创建树/深度嵌套字典

基本上我想迭代一个文件并将每行的内容放入一个深层嵌套的字典中其结构由每行开头的空格数量定义本质上目标是采取这样的事情 a b c d e 并将其变成这样的东西 a b c d e Or this apple colours red
Matplotlib 将颜色图 tab20 更改为三种颜色

Matplotlib 有一些新的且非常方便的颜色图选项卡颜色图 https matplotlib org examples color colormaps reference html 我错过的是生成像 tab20b 或 tab20c 这
Python time.sleep - 永不醒来

我认为这将是那些简单的问题之一但它让我感到困惑停止媒体我是对的找到了解决方案查看答案我正在使用 Python 的单元测试框架来测试多线程应用程序很好而且很直接我有 5 个左右的工作线程监视一个公共队列以及一个为它们制作工作
与函数复合 UniqueConstraint

一个快速的 SQLAlchemy 问题我有一个文档类其属性为数字和日期我需要确保没有重复的号码同年是有没有办法对数字年份日期进行UniqueConstraint 我应该使用唯一索引吗我如何声明功能部分 SQLA
DRF：以编程方式从 TextChoices 字段获取默认选择

我们的网站是 Vue 前端 DRF 后端在一个serializer validate 方法我需要以编程方式确定哪个选项TextChoices类已被指定为模型字段的默认值 TextChoices 类缩写示例 class PaymentM
Python列表对象属性“append”是只读的

正如标题所说在Python中我试图做到这一点以便当有人输入一个选择在本例中为Choice13 时它会从密码列表中删除旧密码并添加新密码 passwords mrjoebblock mrjoefblock mrjoegblock m
字母尺度和随机文本上的马尔可夫链

我想使用 txt 文件中的一本书中的字母频率生成随机文本以便每个新字符 string lowercase 取决于前一个如何使用马尔可夫链来做到这一点或者使用每个字母都有条件频率的 27 个数组更简单我想使用来自的字母频率生成随机文本
使用Python重命名目录中的多个文件

我正在尝试使用以下 Python 脚本重命名目录中的多个文件 import os path Users myName Desktop directory files os listdir path i 1 for file in files
bool() 和operator.truth() 有什么区别？

bool https docs python org 3 library functions html bool and operator truth https docs python org 3 library operator htm

python pandas dataframe：用条件平均值填充nans

python

pandas

NaN

Fill

python pandas dataframe：用条件平均值填充nans 的相关文章

为什么方法无法访问类变量？

如何有条件地组合两个相同形状的 numpy 数组

对打开文件的脚本进行单元测试

无法将较大的 blob 上传到 Azure：azure.core.exceptions.ServiceRequestError：操作未完成（写入）(_ssl.c:2317)

将 Django 表单中的所有 CharField 表单字段输入转换为小写

如何在 openpyxl 中设置或更改表格的默认高度

使用 Python 解析 XML，解析外部 ENTITY 引用

熊猫记忆

如何像在浏览器中一样检索准确的 HTML

如何解码 dtype=numpy.string_ 的 numpy 数组？

如何在 Keras 中使用部分输入进行训练，其余部分用于损失函数

从 python 中的缩进文本文件创建树/深度嵌套字典

Matplotlib 将颜色图 tab20 更改为三种颜色

Python time.sleep - 永不醒来

与函数复合 UniqueConstraint

DRF：以编程方式从 TextChoices 字段获取默认选择

Python列表对象属性“append”是只读的

字母尺度和随机文本上的马尔可夫链

使用Python重命名目录中的多个文件

bool() 和operator.truth() 有什么区别？

随机推荐

在 F# 中，如何生成 Func 类型的表达式？

MyBatis 与 Guava 多重映射

如何从 django 中删除模型？

使用 Ansible 进行 SSH 代理转发

Javascript：无响应的脚本错误

Require 指令 - 文件 url

使用 CruiseControl.NET 和 MSBuild 发布网站

即使发生 400 bad request 错误，如何捕获服务器响应？

Android - facebook sdk 登录窗口消失

Crystal Reports - 如果页面上没有记录，则隐藏页眉

如何通过串口连接Android模拟器与桌面？

这么多未使用的分支。如何清理？

使用callstack在C中实现堆栈数据结构？