计算 Dask 中过去 n 天的滚动平均值

2024-03-07

我正在尝试计算大型数据集过去 n 天(n = 30)的滚动平均值。 在 Pandas 中,我将使用以下命令:

 temp = chunk.groupby('id_code').apply(lambda x: x.set_index('entry_time_flat').resample('1D').first())
    dd = temp.groupby(level=0)['duration'
                                ].apply(lambda x: x.shift().rolling(min_periods = 1,window = n_days).mean()
                                        ).reset_index(name = "avg_delay_"+ str(n_days) + "_days")

    chunk = pd.merge(chunk, dd, on=['entry_time_flat', 'id_code'], how='left'
                     ).dropna(subset = ["avg_delay_"+ str(n_days) + "_days"])

基本上,该函数按“id 代码”进行分组,并在“entry_time_flat”(日期时间对象)的最后 n 天中计算特征“duration”的平均值。

然而,为了保持代码高效,最好在 Dask 数据帧上重现此函数,而不将其转换为 Pandas DF。

如果我在 Dask DF 上运行上述代码,则会引发以下错误:

TypeError: __init__() got an unexpected keyword argument 'level'

最终,我如何计算 Dask 数据帧上过去 n 天的“持续时间”列的平均值?


最终,我如何计算 Dask 数据帧上过去 n 天的“持续时间”列的平均值?

滚动 API 应该为您提供此功能

https://docs.dask.org/en/latest/dataframe-api.html#rolling https://docs.dask.org/en/latest/dataframe-api.html#rolling

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

计算 Dask 中过去 n 天的滚动平均值 的相关文章

随机推荐

  • underscore.js 中的 chain 函数是否创建了一个 monad?

    In the chain文档 http underscorejs org chaining你发现 Calling chain在包装对象上将导致所有未来的方法调用 也返回包装的对象 当你完成后 计算 使用value检索最终值 也是如此chai
  • OpenAPI中如何定义全局参数?

    我正在准备我的 API 文档 方法是手工完成 而不是自动生成 我有应该发送到所有 API 的标头 但不知道是否可以为整个 API 全局定义参数 其中一些标头是静态的 有些必须在调用 API 时设置 但它们在所有 API 中都是相同的 我不想
  • 创建字典时使用语言模型文件

    我创建了一个语音到文本识别应用程序 为此 我使用 CMULanguage 工具开发了一本字典 为了为我的项目创建字典 我在组和文件中的语言文件夹中添加了两个文件 这些文件的扩展名是 lm 语言模型 和 dic 当我上传我的语料库时 CMUL
  • Spring Data JPA JpaRepository.save(entity) 不返回数据库默认值

    我有一个相当简单的问题 在单个事务中 我的代码如下所示 MyClass c new MyClass c setPropA A c myClassRepository save c c setPropC C 我的实体如下所示 Entity T
  • 如何通过 Linq 查询 MongoDB 中的 BsonExtraElements

    我使用 mongodb BsonExtraElements 功能来扩展我的类的一些动态数据 但不幸的是我无法通过 mongodb C 驱动程序创建查询 这是我的模型类 public class MongoProductEntity publ
  • 无法检索 ApplicationUser 的元数据。 - VS13

    当我选择使用实体框架生成带有视图的 MVC5 控制器时 我收到以下错误 无法检索 ApplicationUser 的元数据 不支持每种类型的多个对象集 对象集 ApplicationUsers 和 Users 都可以包含 Applicati
  • 无法处理的 POSIX 信号的返回代码

    This is regarding the application that runs on POSIX Linux environment Most signals e g Ctrl C signal 2 SIGINT and few o
  • 计算圆内的坐标

    我正在按钮中间画一个假想的圆圈 圆的半径是Height 2 if Height gt Width or Width 2 if Width gt Height 现在我必须计算这个圆圈中有哪些坐标 以像素为单位 这个想法是 如果例如鼠标光标悬停
  • 如何在 NSUserDefaults 中保存 NSMutableArrays

    我有 4 个带有单独数据的 NSmutablearrays 现在我需要将它们单独保存在 NSuserdefaults 中并单独检索它们 我怎样才能做到这一点 任何人都可以发布一些代码吗 提前谢谢你 数组的内容是什么 虽然 NSUserDef
  • abs() 与 fabs() 速度差异以及 fabs() 的优势

    我对 abs 和 fabs 函数进行了一些简单的测试 但我不明白使用 fabs 的优点是什么 如果是 1 较慢 2 仅适用于浮子 3 如果用在不同的类型上会抛出异常 In 1 timeit abs 5 10000000 loops best
  • DateTime.MinValue 和 SqlDateTime 溢出

    我不想验证txtBirthDate所以我想通过DateTime MinValue在数据库中 我的代码 if txtBirthDate Text string Empty objinfo BirthDate DateTime MinValue
  • 堆栈粉碎后的错误信息如何处理

    我的 C 程序在 Linux 上遇到一些问题 它在 Windows 上编译并运行得很好 Linux 终端返回以下信息 stack smashing detected student terminated Backtrace lib libc
  • Gradle 7 和 jitpack.io 在发布过程中遇到错误

    当我将 Android 项目升级到 Gradle 7 0 并想要在 jitpack io 中发布 aar 库时 我遇到了 Script script maven plugin gradle line 2 What went wrong A
  • Caliburn.Micro:从 IResult 中的异常中恢复

    这是张贴在Caliburn Micro 讨论 http caliburnmicro codeplex com Thread View aspx ThreadId 244394还 我真的在寻找有关最佳解决方法的建议和意见 假设我有以下操作 p
  • Rails jquery mobile 路由/渲染问题

    我正在关注教程http fuelyourcoding com getting started with jquery mobile rails 3 http fuelyourcoding com getting started with j
  • 使用“解决方案文件夹”组织 Visual Studio 解决方案

    当设置包含许多项目的 Visual Studio NET 解决方案时 您发现 解决方案文件夹 有用吗 有什么缺点 我最初的想法是 使用解决方案文件夹对于在解决方案中逻辑地组织类似项目很有用 然而 我惊讶地发现创建解决方案文件夹并没有创建相应
  • 表单身份验证 asp.net vb

    我有一个登录页面 它是主页 位于 www domainname com 当有人访问此页面时 它会在字符串中添加一个 returnurl 以便他们位于 www domainname com default aspx ReturnUrl 2f
  • 测量和监控 Node.JS 服务器性能 [关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
  • 为什么 HttpClient.PostAsync 似乎以 GET 而不是 POST 的方式发送请求?

    我一直在尝试使用发送 POST 请求没有主体的 HttpClient https stackoverflow com questions 7907648 post an empty body to rest api via httpclie
  • 计算 Dask 中过去 n 天的滚动平均值

    我正在尝试计算大型数据集过去 n 天 n 30 的滚动平均值 在 Pandas 中 我将使用以下命令 temp chunk groupby id code apply lambda x x set index entry time flat