pandas groupby 和rolling_apply 忽略NaN

2024-04-10

我有一个 pandas 数据框，我想计算列的滚动平均值（在 groupby 子句之后）。但是，我想排除 NaN。

例如，如果 groupby 返回 [2, NaN, 1]，则结果应为 1.5，而当前它返回 NaN。

我尝试了以下方法，但似乎不起作用：

df.groupby(by=['var1'])['value'].apply(pd.rolling_apply, 3,  lambda x: np.mean([i for i in x if i is not np.nan and i!='NaN']))

如果我尝试这样做：

df.groupby(by=['var1'])['value'].apply(pd.rolling_apply, 3,  lambda x: 1)

我在输出中得到 NaN，所以它一定与 pandas 在后台的工作方式有关。

有任何想法吗？

编辑：这是我想要做的代码示例：

import pandas as pd
import numpy as np

df = pd.DataFrame({'var1' : ['a', 'b', 'a', 'b', 'a', 'b', 'a', 'b'], 'value' : [1, 2, 3, np.nan, 2, 3, 4, 1] })
print df.groupby(by=['var1'])['value'].apply(pd.rolling_apply, 2,  lambda x: np.mean([i for i in x if i is not np.nan and i!='NaN']))

结果是：

0    NaN
1    NaN
2    2.0
3    NaN
4    2.5
5    NaN
6    3.0
7    2.0

虽然我想要以下内容：

一如既往，在 pandas 中，坚持使用矢量化方法（即避免apply）对于性能和可扩展性至关重要。

您想要执行的操作有点繁琐，因为 groupby 对象上的滚动操作目前不支持 NaN（版本 0.18.1）。因此，我们需要几行短代码：

g1 = df.groupby(['var1'])['value']              # group values  
g2 = df.fillna(0).groupby(['var1'])['value']    # fillna, then group values

s = g2.rolling(2).sum() / g1.rolling(2).count() # the actual computation

s.reset_index(level=0, drop=True).sort_index()  # drop/sort index

这个想法是对窗口中的值求和（使用sum），计算 NaN 值（使用count）然后除以求均值。此代码提供以下与您所需的输出相匹配的输出：

0    NaN
1    NaN
2    2.0
3    2.0
4    2.5
5    3.0
6    3.0
7    2.0
Name: value, dtype: float64

在更大的 DataFrame（大约 100,000 行）上进行测试，运行时间低于 100 毫秒，比我尝试过的任何基于应用的方法都要快得多。

可能值得根据实际数据测试不同的方法，因为时间可能会受到其他因素（例如组数）的影响。不过，可以肯定的是，矢量化计算将会胜出。

上面显示的方法非常适合简单计算，例如滚动平均值。它将适用于更复杂的计算（例如滚动标准差），尽管实现更复杂。

总体思路是查看 pandas 中快速的每个简单例程（例如sum），然后用单位元素填充任何空值（例如0）。然后您可以使用 groupby 并执行滚动操作（例如.rolling(2).sum()）。然后将输出与其他操作的输出组合。

例如，要实施groupby NaN 感知滚动方差（其中标准差是平方根）我们必须找到“平方的平均值减去平均值的平方”。这是它的草图：

def rolling_nanvar(df, window):
    """
    Group df by 'var1' values and then calculate rolling variance,
    adjusting for the number of NaN values in the window.

    Note: user may wish to edit this function to control degrees of
    freedom (n), depending on their overall aim.
    """
    g1 = df.groupby(['var1'])['value']
    g2 = df.fillna(0).groupby(['var1'])['value']
    # fill missing values with 0, square values and groupby
    g3 = df['value'].fillna(0).pow(2).groupby(df['var1'])

    n = g1.rolling(window).count()

    mean_of_squares = g3.rolling(window).sum() / n
    square_of_mean = (g2.rolling(window).sum() / n)**2
    variance = mean_of_squares - square_of_mean
    return variance.reset_index(level=0, drop=True).sort_index()

请注意，此函数可能在数值上不稳定（平方可能导致溢出）。熊猫用途韦尔福德算法 https://en.wikipedia.org/wiki/Algorithms_for_calculating_variance#Online_algorithm内部来缓解这个问题。

不管怎样，这个函数虽然使用了几个操作，但是速度还是很快的。这是与建议的更简洁的基于应用的方法的比较亚基姆·皮罗任科 https://stackoverflow.com/a/37395589/3923281:

>>> df2 = pd.concat([df]*10000, ignore_index=True) # 80000 rows
>>> %timeit df2.groupby('var1')['value'].apply(\
         lambda gp: gp.rolling(7, min_periods=1).apply(np.nanvar))
1 loops, best of 3: 11 s per loop

>>> %timeit rolling_nanvar(df2, 7)
10 loops, best of 3: 110 ms per loop

在这种情况下，矢量化速度快了 100 倍。当然，根据您拥有多少数据，您可能希望坚持使用apply因为它允许您以牺牲性能为代价来实现通用性/简洁性。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas groupby 和rolling_apply 忽略NaN 的相关文章

为什么方法无法访问类变量？

我试图理解Python中的变量作用域除了我不明白为什么类变量不能从其方法访问的部分之外大多数事情对我来说都很清楚在下面的例子中mydef1 无法访问a 但如果a可以在全局范围类定义之外声明 class MyClass1 a 25
如何有条件地组合两个相同形状的 numpy 数组

这听起来很简单但我想我把它想得太复杂了我想创建一个数组其元素是从两个形状相同的源数组生成的具体取决于源数组中哪个元素更大为了显示 import numpy as np array1 np array 2 3 0 array2 np
如何用spaCy获取依赖树？

我一直在尝试寻找如何使用 spaCy 获取依赖树但我找不到任何有关如何获取树的信息只能在如何导航树 https spacy io usage examples subtrees 如果有人想轻松查看 spacy 生成的依赖关系树一种解决
如何在“python setup.py test”中运行 py.test 和 linter

我有一个项目setup py文件我用pytest作为测试框架我还在我的代码上运行各种 linter pep8 pylint pydocstyle pyflakes ETC 我用tox在多个 Python 版本中运行它们并使用以下命令构
如何在 openpyxl 中设置或更改表格的默认高度

我想通过openpyxl更改表格高度并且我希望首先默认一个更大的高度值然后我可以设置自动换行以使我的表格更漂亮但我不知道如何更改默认高度唯一的到目前为止我知道更改表格高度的方法是设置 row dimension idx heigh
pandas 两个数据框交叉连接[重复]

这个问题在这里已经有答案了我找不到有关交叉联接的任何内容包括合并联接或其他一些内容我需要使用 my function 作为 myfunc 处理两个数据帧相当于 for itemA in df1 iterrows for itemB
在python中调用subprocess.Popen时“系统找不到指定的文件”

我正在尝试使用svnmerge py合并一些文件它在底层使用 python 当我使用它时我收到一个错误系统找不到指定的文件工作中的同事正在运行相同版本的svnmerge py 以及 python 2 5 2 特别是 r252 609
使用reduce方法的斐波那契数列

于是我看到有人用reduce方法来计算斐波那契数列这是他的想法 1 0 1 1 2 1 3 2 5 3 对应于 1 1 2 3 5 8 13 21 代码如下所示 def fib reduce n initial 1 0 dummy ra
以编程方式将列名称添加到 numpy ndarray

我正在尝试将列名称添加到 numpy ndarray 然后按名称选择列但这不起作用我无法判断问题是在添加名称时出现还是在稍后尝试调用它们时出现这是我的代码 data np genfromtxt csv file delimiter
如何检查包含 NaN 的列表 [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案在我的 for 循环中我的代码生成一个如下所示的列表 list 0 0 0 0 sum 0 0 0 0 该循环生成所有其他数字向量但它也
如何像在浏览器中一样检索准确的 HTML

我正在使用 Python 脚本来呈现网页并检索其 HTML 它适用于大多数页面但对于其中一些页面检索到的 HTML 不完整我不太明白为什么这是我用来废弃此页面的脚本由于某种原因每个产品的链接不在 HTML 中 Link http
从 python 中的缩进文本文件创建树/深度嵌套字典

基本上我想迭代一个文件并将每行的内容放入一个深层嵌套的字典中其结构由每行开头的空格数量定义本质上目标是采取这样的事情 a b c d e 并将其变成这样的东西 a b c d e Or this apple colours red
如何获取 Matplotlib 生成的散点图的像素坐标？

我使用 Matplotlib 生成散点图的 PNG 文件现在对于每个散点图除了 PNG 文件之外我还会also就像生成散点图中各个点的像素坐标列表一样我用来生成散点图 PNG 文件的代码基本上是这样的 from matplotli
Docker 日志中的 Python 异常标记为流：stdout

我想解析和处理来自 docker 容器的所有错误但当我期望 stderr 时 Python 异常标记为 stdout 举个简单的例子app py raise Exception 然后我在 docker 容器中运行这个文件但在 var l
从 Apache 运行 python 脚本的最简单方法

我花了很长时间试图弄清楚这一点我基本上正在尝试开发一个网站当用户单击特定按钮时我必须在其中执行 python 脚本在研究了 Stack Overflow 和 Google 之后我需要配置 Apache 以便能够运行 CGI 脚本
django如何将字符串转换为模块？

我试图了解 django 的另一个神奇之处它可以将字符串转换为模块 In settings py INSTALLED APPS声明如下 INSTALLED APPS django contrib auth django contrib c
使用 pandas 绘制带有误差线的条形图

我正在尝试从 DataFrame 生成条形图如下所示 Pre Post Measure1 0 4 1 9 这些值是我从其他地方计算出来的中值我还有它们的方差和标准差以及标准误差我想将结果绘制为具有适当误差线的条形图但指定多个误差值
Python：如何从文件中的一行读取字符并将它们转换为浮点数和字符串，具体取决于它们是数字还是字母？

我有一个如下所示的文件 1 1 C C 1 9873 2 347 3 88776 1 2 C Si 4 887 9 009 1 21 我想逐行读取文件的内容当我使用的行上只有数字时 for line in readlines file d
DRF：以编程方式从 TextChoices 字段获取默认选择

我们的网站是 Vue 前端 DRF 后端在一个serializer validate 方法我需要以编程方式确定哪个选项TextChoices类已被指定为模型字段的默认值 TextChoices 类缩写示例 class PaymentM
Windows 与 Linux 文本文件读取

问题是我最近从 Windows 切换到 Ubuntu 我的一些用于分析数据文件的 python 脚本给了我错误我不确定如何正确解决我当前仪器的数据文件输出如下 Header 有关仪器等的各种信息 Data 状态代码温度字段等 0

随机推荐

将接口方法作为参数传递

Note 这很可能是非常C 特定语言问题与以下无关WCF or web services at all 有3方ASMXWeb 服务用于数据检索我创建了一个名为的通用方法ExecuteCommand 用于针对 Web 服务的每个请求该
FSharp.Data.JsonProvider - 从类型获取 json

FSharp Data JsonProvider 提供了一种从 json 转换为 F 类型的方法是否可以反向操作即声明 FSharp Data JsonProvider 创建的类型之一的实例将字段值设置为我需要的值然后获取等效的 j
Pyenv 不自动激活

我已经在我的环境中安装了 pyenv 直到这个周末当我安装 Kivy 时我的 pyenv 本地设置一直工作正常但是现在当我进入各个 python 项目目录时 pyenv 不会自动正确激活正确的 python 版本 E g 我像这样使
Spring Security 与 AcceptHeaderLocaleResolver 和 i18n

我陷入困境可能错过了文档中的某些内容或犯了一些小错误 Spring Security 3 0 5 已集成到我的 Spring MVC 3 0 5 应用程序中 AcceptHeaderLocaleResolver用于区域设置检测除了安全错
Angular JS 2 npm 和 ng(Angular-Cli) 之间的区别（内置工具）

在 AngularJS 2 中 NPM 和 NG Angular CLI 之间的主要区别是什么如果通过 NPM 如果我们可以构建我们的应用程序并且它可以工作那么 NG 构建 Angular cli 的需求是什么 npm start 与
SQLite3 .backup 和 .dump 命令是否锁定数据库？

我能找到的唯一文档 backup and dump是由 help backup DB FILE Backup DB default main to FILE dump TABLE Dump the database in an SQL te
使用泛型快速查找给定类的超级视图

我想我正在与仿制药作斗争我想创建简单的 UIView 扩展来递归地查找函数参数中传递的类的超级视图我希望该函数返回可选的显然包含 nil 或作为提供的类的实例可见的对象 extension UIView func superviewO
强制 Internet Explorer 使用特定的 Java 运行时环境安装？

当查看别人包含小程序的网页时当我安装了多个 JRE 时如何强制 Internet Explorer 6 0 使用特定的 JRE 首先禁用当前安装的 Java 版本要执行此操作请转至控制面板 gt Java gt 高级 gt 浏览器
没有要加载的文件——rest_client (Rails 3)

当我做thin start 这是我得到的错误 thin start gt gt Using rack adapter rvm gems ruby 1 9 2 p0 gems activesupport 3 0 9 lib active su
尾递归函数上的 StackOverflowError

当我使用 avg bids 4000 10 5 调用以下 Clojure 代码时会导致 java lang StackOverflowError 我试图找出原因因为 sum bids 是作为尾递归函数编写的所以应该可以工作使用 Cl
如何允许 html 返回 angular2 管道？

我有一个返回 html 字符串的管道但是字符串输出可能会作为安全默认值进行转义我确信必须有一个选项来允许使用 html 但当我搜索文档时找不到它我怎样才能告诉管道允许渲染实际的 html 使用绑定innerHTML https dev
转换 boost::variant 类型的 std::vector

我如何实现下面的函数来从矢量转换Value to a Container 我想断言如果不是所有成员values属于相同类型即向量包含字符串和整数的混合这是因为该函数的返回值是std vector
发布签名的 Android 应用程序，Google Plus 登录和 Google 地图无法正常工作

1 我正在使用谷歌登录 and 谷歌地图在我的android应用程序中 2 在调试应用程序时从Android Studio到真实设备移动 Google plus登录和Google Map工作正常一切正常 Problem 1 Build
检查 Ember Handlebar If 块助手中的值是否等于

我们如何检查值是否相等ember js http www emberjs com的 If 块助手 if person John 我们如何在车把上执行上述操作 The if helper 只能测试属性不能测试任意表达式因此在这种情况下
在nodeJs socket.io中，webstorm中的方法未解决

我正在节点中学习socket io 并且我已经使用安装了该模块 npm install socket io save 这是我的代码 var app require express var http require http Server
使用 Maven 3 设置 Struts2 EAR 项目

我正在迁移自Apache Ant Apache Ivy to Apache Maven用于新项目的生命周期管理我从未在正式版本中使用过 Maven 所以我对此完全是新手目前我已经安装并配置Maven 3 http maven apach
静态变量与成员

如果某个类的数据将被修改并且需要在整个程序中保留但仅在一个成员函数中使用那么最好将该变量设为其所在例程的局部静态变量还是使其成为该例程的局部静态变量班级成员问题不是数据将在整个程序中使用而是如果您创建此类的两个对象您是否希
使用 nltk 中的meteor_score模块评估模型时如何实现meteor分数？

我目前有 2 个文件 reference txt 和 model txt 这两个文本文件包含原始字幕和训练后生成的字幕我可以简单地执行以下操作来获取流星分数 score nltk translate meteor score meteor
如何以MVVM模式加载wpf用户控件

我正在创建一个采用 mvvm 模式的 wpf 用户控件所以我们有视图代码隐藏文件中没有代码视图模型模型数据访问文件 I have 主窗口 xaml 作为视图文件我需要与之绑定主窗口模型 cs 通常在 wpf 应用程序中我们
pandas groupby 和rolling_apply 忽略NaN

我有一个 pandas 数据框我想计算列的滚动平均值在 groupby 子句之后但是我想排除 NaN 例如如果 groupby 返回 2 NaN 1 则结果应为 1 5 而当前它返回 NaN 我尝试了以下方法但似乎不起作用 df

pandas groupby 和rolling_apply 忽略NaN

pandas groupby 和rolling_apply 忽略NaN 的相关文章

随机推荐

热门标签