计算 Dask 中过去 n 天的滚动平均值

2024-03-07

我正在尝试计算大型数据集过去 n 天（n = 30）的滚动平均值。在 Pandas 中，我将使用以下命令：

 temp = chunk.groupby('id_code').apply(lambda x: x.set_index('entry_time_flat').resample('1D').first())
    dd = temp.groupby(level=0)['duration'
                                ].apply(lambda x: x.shift().rolling(min_periods = 1,window = n_days).mean()
                                        ).reset_index(name = "avg_delay_"+ str(n_days) + "_days")

    chunk = pd.merge(chunk, dd, on=['entry_time_flat', 'id_code'], how='left'
                     ).dropna(subset = ["avg_delay_"+ str(n_days) + "_days"])

基本上，该函数按“id 代码”进行分组，并在“entry_time_flat”（日期时间对象）的最后 n 天中计算特征“duration”的平均值。

然而，为了保持代码高效，最好在 Dask 数据帧上重现此函数，而不将其转换为 Pandas DF。

如果我在 Dask DF 上运行上述代码，则会引发以下错误：

TypeError: __init__() got an unexpected keyword argument 'level'

最终，我如何计算 Dask 数据帧上过去 n 天的“持续时间”列的平均值？

最终，我如何计算 Dask 数据帧上过去 n 天的“持续时间”列的平均值？

滚动 API 应该为您提供此功能

https://docs.dask.org/en/latest/dataframe-api.html#rolling https://docs.dask.org/en/latest/dataframe-api.html#rolling

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

Dask

daskdataframe

计算 Dask 中过去 n 天的滚动平均值的相关文章

稀有对象的 python 类型注释，例如 psycopg2 对象

我了解内置类型但是我如何指定稀有对象例如数据库连接对象 def get connection and cursor gt tuple psycopg2 extensions cursor psycopg2 extensions conn
多处理中的动态池大小？

有没有办法动态调整multiprocessing Pool尺寸我正在编写一个简单的服务器进程它会产生工作人员来处理新任务使用multiprocessing Process对于这种情况可能更适合因为工作人员的数量不应该是固定的但我需
在Python中从大文件中搜索单词列表

我是新蟒蛇我有一个单词列表和一个非常大的文件我想删除文件中包含单词列表中的单词的行单词列表按排序给出并且可以在初始化期间输入我正在努力寻找解决这个问题的最佳方法我现在正在进行线性搜索这花费了太多时间有什么建议么您可以使用i
从 Azure ML 实验中访问 Azure Blob 存储

Azure ML 实验提供了通过以下方式读取 CSV 文件并将其写入 Azure Blob 存储的方法 Reader and Writer模块但是我需要将 JSON 文件写入 blob 存储由于没有模块可以执行此操作因此我尝试在Ex
Series.sort() 和 Series.order() 有什么区别？

s pd Series nr randint 0 10 5 index nr randint 0 10 5 s Output 1 3 7 6 2 0 9 7 1 6 order 按值排序并返回一个新系列 s order Output 2 0
如何通过 python 多处理利用所有核心

我一直在摆弄Python的multiprocessing现在已经使用了一个多小时的功能尝试使用并行化相当复杂的图形遍历函数multiprocessing Process and multiprocessing Manager import
如何过滤 Pandas GroupBy 对象并获取 GroupBy 对象？

当对 Pandas groupby 操作的结果执行过滤时它返回一个数据帧但假设我想执行进一步的分组计算我必须再次调用 groupby 这似乎有点绕有更惯用的方法吗 EDIT 为了说明我在说什么我们无耻地从 Pandas 文档中窃取
如何使用scrapy检查网站是否支持http、htts和www前缀

我正在使用 scrapy 来检查某些网站是否工作正常当我使用http example com https example com or http www example com 当我创建 scrapy 请求时它工作正常例如在我的pa
运行 Python 单元测试，以便成功时不打印任何内容，失败时仅打印 AssertionError()

我有一个标准单元测试格式的测试模块 class my test unittest TestCase def test 1 self tests def test 2 self tests etc 我的公司有一个专有的测试工具它将作为命令行
Paste.httpserver 并通过 HTTP/1.1 Keep-alive 减慢速度；使用 httperf 和 ab 进行测试

我有一个基于paste httpserver 的Web 服务器作为HTTP 和WSGI 之间的适配器当我使用 httperf 进行性能测量时如果每次使用 num conn 启动一个新请求我每秒可以执行超过 1 000 个请求如果我使
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
使用 Python 将连续日期分组在一起

Given dates datetime 2014 10 11 datetime 2014 10 1 datetime 2014 10 2 datetime 2014 10 3 datetime 2014 10 5 datetime 201
为什么 __dict__ 和 __weakref__ 类从未在 Python 中重新定义？

类创建似乎从来没有re 定义 dict and weakref class属性即如果它们已经存在于超类的字典中则它们不会添加到其子类的字典中但始终re 定义 doc and module class属性为什么 gt gt gt c
无法通过 Python 子进程进行 SSH

我需要通过堡垒 ssh 进入机器因此该命令相当长 ssh i
如何在亚马逊 EC2 上调试 python 网站？

我是网络开发新手这可能是一个愚蠢的问题但我找不到可以帮助我的确切答案或教程我工作的公司的网站用 python django 构建托管在亚马逊 EC2 上我想知道从哪里开始调试这个生产站点并检查存储在那里的日志和数据库我有帐户信
rpy2 无法加载外部库

希望有人能帮忙解决这个问题 R版本 2 14 1rpy2版本 2 2 5蟒蛇版本 2 7 3 一直在尝试在 python 脚本中使用 rpy2 加载 R venneuler 包该包以 rJava 作为依赖项 venneuler 和 rJa
如何获取pandas中groupby对象中的组数？

我想知道有多少个独特的组需要执行计算给定一个名为 groupby 的对象dfgroup 我们如何找到组的数量简单快速 Pandaic ngroups 较新版本的 groupby API pandas gt 0 23 提供了此未记录的
python从二进制文件中读取16字节长的双精度值

我找到了蟒蛇struct unpack 读取其他程序生成的二进制数据非常方便问题如何阅读16 字节长双精度数出二进制文件以下 C 代码将 1 01 写入二进制文件三次分别使用 4 字节浮点型 8 字节双精度型和 16 字节长双精度型
用于插入或替换 URL 参数的 Django 模板标签

有人知道 Django 模板标签可以获取当前路径和查询字符串并插入或替换查询字符串值吗例如向 some custom path q how now brown cow page 3 filter person 发出请求电话 urlpar
定义在文本小部件中双击时选择哪些字符

在 Windows 上双击文本小部件中的单词也将选择连接的标点符号有什么方法可以定义您想要选择的角色吗 tcl wordchars该变量的值是一个正则表达式可以设置它来控制什么被视为单词字符例如通过双击 Tk 中的文本来选择单

随机推荐

underscore.js 中的 chain 函数是否创建了一个 monad？

In the chain文档 http underscorejs org chaining你发现 Calling chain在包装对象上将导致所有未来的方法调用也返回包装的对象当你完成后计算使用value检索最终值也是如此chai
OpenAPI中如何定义全局参数？

我正在准备我的 API 文档方法是手工完成而不是自动生成我有应该发送到所有 API 的标头但不知道是否可以为整个 API 全局定义参数其中一些标头是静态的有些必须在调用 API 时设置但它们在所有 API 中都是相同的我不想
创建字典时使用语言模型文件

我创建了一个语音到文本识别应用程序为此我使用 CMULanguage 工具开发了一本字典为了为我的项目创建字典我在组和文件中的语言文件夹中添加了两个文件这些文件的扩展名是 lm 语言模型和 dic 当我上传我的语料库时 CMUL
Spring Data JPA JpaRepository.save(entity) 不返回数据库默认值

我有一个相当简单的问题在单个事务中我的代码如下所示 MyClass c new MyClass c setPropA A c myClassRepository save c c setPropC C 我的实体如下所示 Entity T
如何通过 Linq 查询 MongoDB 中的 BsonExtraElements

我使用 mongodb BsonExtraElements 功能来扩展我的类的一些动态数据但不幸的是我无法通过 mongodb C 驱动程序创建查询这是我的模型类 public class MongoProductEntity publ
无法检索 ApplicationUser 的元数据。 - VS13

当我选择使用实体框架生成带有视图的 MVC5 控制器时我收到以下错误无法检索 ApplicationUser 的元数据不支持每种类型的多个对象集对象集 ApplicationUsers 和 Users 都可以包含 Applicati
无法处理的 POSIX 信号的返回代码

This is regarding the application that runs on POSIX Linux environment Most signals e g Ctrl C signal 2 SIGINT and few o
计算圆内的坐标

我正在按钮中间画一个假想的圆圈圆的半径是Height 2 if Height gt Width or Width 2 if Width gt Height 现在我必须计算这个圆圈中有哪些坐标以像素为单位这个想法是如果例如鼠标光标悬停
如何在 NSUserDefaults 中保存 NSMutableArrays

我有 4 个带有单独数据的 NSmutablearrays 现在我需要将它们单独保存在 NSuserdefaults 中并单独检索它们我怎样才能做到这一点任何人都可以发布一些代码吗提前谢谢你数组的内容是什么虽然 NSUserDef
abs() 与 fabs() 速度差异以及 fabs() 的优势

我对 abs 和 fabs 函数进行了一些简单的测试但我不明白使用 fabs 的优点是什么如果是 1 较慢 2 仅适用于浮子 3 如果用在不同的类型上会抛出异常 In 1 timeit abs 5 10000000 loops best
DateTime.MinValue 和 SqlDateTime 溢出

我不想验证txtBirthDate所以我想通过DateTime MinValue在数据库中我的代码 if txtBirthDate Text string Empty objinfo BirthDate DateTime MinValue
堆栈粉碎后的错误信息如何处理

我的 C 程序在 Linux 上遇到一些问题它在 Windows 上编译并运行得很好 Linux 终端返回以下信息 stack smashing detected student terminated Backtrace lib libc
Gradle 7 和 jitpack.io 在发布过程中遇到错误

当我将 Android 项目升级到 Gradle 7 0 并想要在 jitpack io 中发布 aar 库时我遇到了 Script script maven plugin gradle line 2 What went wrong A
Caliburn.Micro：从 IResult 中的异常中恢复

这是张贴在Caliburn Micro 讨论 http caliburnmicro codeplex com Thread View aspx ThreadId 244394还我真的在寻找有关最佳解决方法的建议和意见假设我有以下操作 p
Rails jquery mobile 路由/渲染问题

我正在关注教程http fuelyourcoding com getting started with jquery mobile rails 3 http fuelyourcoding com getting started with j
使用“解决方案文件夹”组织 Visual Studio 解决方案

当设置包含许多项目的 Visual Studio NET 解决方案时您发现解决方案文件夹有用吗有什么缺点我最初的想法是使用解决方案文件夹对于在解决方案中逻辑地组织类似项目很有用然而我惊讶地发现创建解决方案文件夹并没有创建相应
表单身份验证 asp.net vb

我有一个登录页面它是主页位于 www domainname com 当有人访问此页面时它会在字符串中添加一个 returnurl 以便他们位于 www domainname com default aspx ReturnUrl 2f
测量和监控 Node.JS 服务器性能 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
为什么 HttpClient.PostAsync 似乎以 GET 而不是 POST 的方式发送请求？

我一直在尝试使用发送 POST 请求没有主体的 HttpClient https stackoverflow com questions 7907648 post an empty body to rest api via httpclie
计算 Dask 中过去 n 天的滚动平均值

我正在尝试计算大型数据集过去 n 天 n 30 的滚动平均值在 Pandas 中我将使用以下命令 temp chunk groupby id code apply lambda x x set index entry time flat

计算 Dask 中过去 n 天的滚动平均值

计算 Dask 中过去 n 天的滚动平均值 的相关文章

随机推荐

热门标签

计算 Dask 中过去 n 天的滚动平均值的相关文章