PySpark：如何分组、重新采样和前向填充空值？

2024-03-12

考虑以下数据集in Spark，我想以特定频率（例如 5 分钟）对日期重新采样。

START_DATE = dt.datetime(2019,8,15,20,33,0)
test_df = pd.DataFrame({
    'school_id': ['remote','remote','remote','remote','onsite','onsite','onsite','onsite','remote','remote'],
    'class_id': ['green', 'green', 'red', 'red', 'green', 'green', 'green', 'green', 'red', 'green'],
    'user_id': [15,15,16,16,15,17,17,17,16,17],
    'status': [0,1,1,1,0,1,0,1,1,0],
    'start': pd.date_range(start=START_DATE, periods=10, freq='2min')
})

test_df.groupby(['school_id', 'class_id', 'user_id', 'start']).min()

不过，我还希望在两个特定日期范围之间进行重新采样：2019-08-15 20:30:00 and 2019-08-15 21:00:00。所以每组school_id, class_id and user_id将有 6 个条目，两个日期范围之间每 5 分钟存储一个条目。这null重采样生成的条目应通过前向填充进行填充。

我使用 Pandas 作为示例数据集，但实际的数据帧将在 Spark 中提取，因此我正在寻找的方法也应该在 Spark 中完成。

我想这种方法可能与此类似PySpark：如何重新采样频率 https://stackoverflow.com/questions/39271374/pyspark-how-to-resample-frequencies但我无法让它在这种情况下工作。

感谢您的帮助

这可能不是获得最终结果的最佳方法，但只是想在这里展示这个想法。

首先，创建 DataFrame 并将时间戳转换为整数

from datetime import datetime
import pytz
from pytz import timezone

# Create DataFrame
START_DATE = datetime(2019,8,15,20,33,0)
test_df = pd.DataFrame({
    'school_id': ['remote','remote','remote','remote','onsite','onsite','onsite','onsite','remote','remote'],
    'class_id': ['green', 'green', 'red', 'red', 'green', 'green', 'green', 'green', 'red', 'green'],
    'user_id': [15,15,16,16,15,17,17,17,16,17],
    'status': [0,1,1,1,0,1,0,1,1,0],
    'start': pd.date_range(start=START_DATE, periods=10, freq='2min')
})

# Convert TimeStamp to Integers
df = spark.createDataFrame(test_df)
print(df.dtypes)
df = df.withColumn('start', F.col('start').cast("bigint"))
df.show()

这输出：

+---------+--------+-------+------+----------+
|school_id|class_id|user_id|status|     start|
+---------+--------+-------+------+----------+
|   remote|   green|     15|     0|1565915580|
|   remote|   green|     15|     1|1565915700|
|   remote|     red|     16|     1|1565915820|
|   remote|     red|     16|     1|1565915940|
|   onsite|   green|     15|     0|1565916060|
|   onsite|   green|     17|     1|1565916180|
|   onsite|   green|     17|     0|1565916300|
|   onsite|   green|     17|     1|1565916420|
|   remote|     red|     16|     1|1565916540|
|   remote|   green|     17|     0|1565916660|
+---------+--------+-------+------+----------+

创建您想要的时间序列

# Create time sequece needed
start = datetime.strptime('2019-08-15 20:30:00', '%Y-%m-%d %H:%M:%S')
eastern = timezone('US/Eastern')
start = eastern.localize(start)
times = pd.date_range(start = start, periods = 6, freq='5min')
times = [s.timestamp() for s in times]
print(times)

[1565915400.0, 1565915700.0, 1565916000.0, 1565916300.0, 1565916600.0, 1565916900.0]

最后，为每个组创建数据框

# Use pandas_udf to create final DataFrame
schm = StructType(df.schema.fields + [StructField('epoch', IntegerType(), True)])
@pandas_udf(schm, PandasUDFType.GROUPED_MAP)
def resample(pdf):
    pddf = pd.DataFrame({'epoch':times})
    pddf['school_id'] = pdf['school_id'][0]
    pddf['class_id'] = pdf['class_id'][0]
    pddf['user_id'] = pdf['user_id'][0]


    res = np.searchsorted(times, pdf['start'])
    arr = np.zeros(len(times))
    arr[:] = np.nan
    arr[res] = pdf['start']
    pddf['status'] = arr

    arr[:] = np.nan
    arr[res] = pdf['status']
    pddf['start'] = arr
    return pddf

df = df.groupBy('school_id', 'class_id', 'user_id').apply(resample)
df = df.withColumn('timestamp', F.to_timestamp(df['epoch']))
df.show(60)

最终结果：

+---------+--------+-------+----------+-----+----------+-------------------+
|school_id|class_id|user_id|    status|start|     epoch|          timestamp|
+---------+--------+-------+----------+-----+----------+-------------------+
|   remote|     red|     16|      null| null|1565915400|2019-08-15 20:30:00|
|   remote|     red|     16|      null| null|1565915700|2019-08-15 20:35:00|
|   remote|     red|     16|1565915940|    1|1565916000|2019-08-15 20:40:00|
|   remote|     red|     16|      null| null|1565916300|2019-08-15 20:45:00|
|   remote|     red|     16|1565916540|    1|1565916600|2019-08-15 20:50:00|
|   remote|     red|     16|      null| null|1565916900|2019-08-15 20:55:00|
|   onsite|   green|     15|      null| null|1565915400|2019-08-15 20:30:00|
|   onsite|   green|     15|      null| null|1565915700|2019-08-15 20:35:00|
|   onsite|   green|     15|      null| null|1565916000|2019-08-15 20:40:00|
|   onsite|   green|     15|1565916060|    0|1565916300|2019-08-15 20:45:00|
|   onsite|   green|     15|      null| null|1565916600|2019-08-15 20:50:00|
|   onsite|   green|     15|      null| null|1565916900|2019-08-15 20:55:00|
|   remote|   green|     17|      null| null|1565915400|2019-08-15 20:30:00|
|   remote|   green|     17|      null| null|1565915700|2019-08-15 20:35:00|
|   remote|   green|     17|      null| null|1565916000|2019-08-15 20:40:00|
|   remote|   green|     17|      null| null|1565916300|2019-08-15 20:45:00|
|   remote|   green|     17|      null| null|1565916600|2019-08-15 20:50:00|
|   remote|   green|     17|1565916660|    0|1565916900|2019-08-15 20:55:00|
|   onsite|   green|     17|      null| null|1565915400|2019-08-15 20:30:00|
|   onsite|   green|     17|      null| null|1565915700|2019-08-15 20:35:00|
|   onsite|   green|     17|      null| null|1565916000|2019-08-15 20:40:00|
|   onsite|   green|     17|1565916180|    1|1565916300|2019-08-15 20:45:00|
|   onsite|   green|     17|1565916420|    1|1565916600|2019-08-15 20:50:00|
|   onsite|   green|     17|      null| null|1565916900|2019-08-15 20:55:00|
|   remote|   green|     15|      null| null|1565915400|2019-08-15 20:30:00|
|   remote|   green|     15|1565915580|    0|1565915700|2019-08-15 20:35:00|
|   remote|   green|     15|      null| null|1565916000|2019-08-15 20:40:00|
|   remote|   green|     15|      null| null|1565916300|2019-08-15 20:45:00|
|   remote|   green|     15|      null| null|1565916600|2019-08-15 20:50:00|
|   remote|   green|     15|      null| null|1565916900|2019-08-15 20:55:00|
+---------+--------+-------+----------+-----+----------+-------------------+

现在，您将获得每组 6 个时间戳。请注意，并非所有原始的“状态”和“开始”都映射到最终的 DataFrame，这是因为在resampleudf，它发生在5minute间隔，两个“开始”时间可以映射到同一时间网格点，您在这里会丢失一个。这可以在udf根据您的频率以及您希望如何保存数据。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

PySpark

PySpark：如何分组、重新采样和前向填充空值？的相关文章

Tkinter：消息小部件中锚点选项的正确值是多少？

我一直在学习 tkinterTkinter 中的消息小部件 https python course eu tkinter message widget in tkinter php at Python 课程和教程 https python
Flask中使用的路由装饰器是如何工作的

我熟悉 Python 装饰器的基础知识但是我不明白这个用于 Flask 路由的特定装饰器是如何工作的以下是 Flask 网站上的代码片段 from flask import Flask escape request app Flask
为什么我的混淆矩阵只返回一个数字？

我正在做二元分类每当我的预测等于事实时我发现sklearn metrics confusion matrix返回单个值难道没有问题吗 from sklearn metrics import confusion matrix print
ValueError：请使用“Layer”实例初始化“TimeDistributed”层

我正在尝试构建一个可以在音频和视频样本上进行训练的模型但出现此错误ValueError Please initialize TimeDistributed layer with a Layer instance You passed Te
从字典的元素创建 Pandas 数据框

我正在尝试从字典创建一个 pandas 数据框字典设置为 nvalues y1 1 2 3 4 y2 5 6 7 8 y3 a b c d 我希望数据框仅包含 y1 and y2 到目前为止我可以使用 df pd DataFrame fr
如何为未捕获的异常处理程序编写单元测试

我有一个函数可以捕获uncaught例外情况如下有没有办法编写一个单元测试来执行uncaught exception handler 功能正常但测试正常退出 import logging def config logger logge
将 C++ 指针作为参数传递给 Cython 函数

cdef extern from Foo h cdef cppclass Bar pass cdef class PyClass cdef Bar bar def cinit self Bar b bar b 这总是会给我类似的东西 Can
python array(10,1) 和 array(10,) 之间的区别

我正在尝试将 MNIST 数据集加载到数组中当我使用 X train y train X test y test mnist load data 我得到一个数组 y test 10000 但我希望它的形状为 10000 1 数组 1000
使用 Pytest 的参数化添加测试功能的描述

当其中一个测试失败时可以在测试正在测试的内容的参数化中添加描述快速了解测试失败的原因有时您不知道测试失败的原因您必须查看代码通过每个测试的描述您就可以知道例如 pytest mark parametrize num1 num2
仅当某些值相等时，如何才能将一个文本文件中的值替换为另一个文本文件中的其他值？

我有一个名为finalscores txt我想创建一个 python 脚本它将打开它并从两个单独的列中读取值这是我的finalscores txt file Atom nVa predppm avgppm stdev delta QPr
Jupyter 笔记本中未显示绘图图表

我已经尝试解决这个问题几个小时了我按照上面的步骤操作情节网站 https plot ly python getting started start plotting online并且图表仍然没有显示在笔记本中这是我的情节代码 color
PIL.Image.open和tf.image.decode_jpeg返回值的区别

我使用 PIL Image open 和 tf image decode jpeg 将图像文件解析为数组但发现PIL Image open 中的像素值与tf image decode jpeg不一样为什么会出现这种情况 Thanks 代
为什么在Python解释器中输入_会返回True？ [复制]

这个问题在这里已经有答案了我的翻译行为非常奇怪 gt gt gt True gt gt gt type True
为什么这个 if 语句会导致语法错误

我正在尝试设置一个 elif 语句如果用户按下 Enter 键代码将继续但是我不断遇到语法错误 GTIN 0 while True try GTIN int input input your gtin 8 number if len
无法在 PyCharm 版本 9.3.3 中安装 NumPy。 Python版本3.8.2

在 PyCharm 中安装 NumPy 时出错尝试安装 Microsoft Visual C 14 0 还是行不通 NumPy 正在通过命令安装pip3 install numpy在 cmd 终端中但是当尝试将其安装在 PyCharm
将字符串中的随机字符转换为大写

我尝试随机附加文本字符串这样就不只是有像这样的输出 gt gt gt david 我最终会得到类似的东西 gt gt gt DaViD gt gt gt dAviD 我现在的代码是这样的 import random import stri
如何从列表类别中对 pandas 数据框进行排序？

所以我在下面有这个数据集我想根据我的列表从名称列进行排序以及按 A 升序和按 B 降序排序 import pandas as pd import numpy as np df1 pd DataFrame from items A 1
Python守护进程：保持日志记录

我有一个将一些数据记录到磁盘的脚本 logging basicConfig filename davis debug log level logging DEBUG logging basicConfig filename davis er
django jet 中的自定义徽标

我目前正在尝试对 django 管理面板的皮肤进行一些定制以使其更符合我们的品牌目前我们使用 django jet 来美化管理面板 django jet 可以自定义 css html 吗所有评论都说我应该更改一些 html 文件但我
描述符“join”需要“unicode”对象，但收到“str”

代码改编自here http wiki geany org howtos convert camelcase from foo bar to Foo Bar def lower case underscore to camel case s

随机推荐

使用转换器和提供程序而不是属性映射时如何让 ModelMapper.validate() 成功？

有类似的东西 Getter Setter public static class Entity private int hash private LocalDateTime createdTime and Getter Setter pub
调用 oncontextmenu 时 Firefox 浏览器的事件未定义

我在右键单击页面中的按钮时显示上下文菜单用于显示上下文菜单的代码是 window addEventListener contextmenu function e e preventDefault false 当我右键单击按钮时调用的上下
解决 git merge octopus 上的冲突

章鱼合并是指合并2个以上的头用户应该如何使用普通的三向合并工具比较文件 3 个文件被传递到合并工具 BASE LOCAL REMOTE 3 个头需要多少个以及什么组合在这种情况下您不应该使用章鱼合并八达通合并仅应在不存在合并冲突或冲
setInterval 使用 Electron 一小时后停止

希望有人能在这里指出我正确的方向我的电子应用程序需要每 10 分钟左右执行一次 API 调用目前我在渲染器进程中使用 setInterval 循环来执行此操作该循环每 10 分钟触发一次它通常工作得很好几个小时后似乎就停止了我
Android Studio 在创建新活动时“发生 IDE 错误”

更新见底部由于 Android Studio 将自身更新到 v3 0 我无法创建新的 Activity 我收到此错误报告对话框显示 2 个错误我尝试了不同的项目尝试清理项目重新同步 gradle 重新启动计算机卸载重新安装 A
strdup()：对警告感到困惑（“隐式声明”、“使指针...无需强制转换”、内存泄漏）

当我编译下面的一小段代码其中我们定义一个字符串然后使用 strdup 来制作副本时我收到 3 个警告来自 GCC 的 2 个编译器警告和来自 valgrind 的 1 个运行时警告错误我怀疑内存泄漏错误由 valgrind
x86-SSE 中四个压缩单精度浮点到无符号双字的转换

有没有办法将四个打包单精度浮点值转换为具有 SSE 扩展的 x86 中的四个双字最接近的指令是CVTPS2PI 但它不能在两个 xmm 寄存器上执行而是应该给出为CVTPS2PI MM XMM M64 如果我想要类似的东西怎么办
R metaMDS 排序距离

我一直在对不同采样点的丰富物种数据集进行一些排序我在用metaMDS 素食主义者可以做到这一点通过此功能您可以直接输入群落数据行中的站点和列中的物种并指定您希望使用的距离类型即 jaccard brays curtis euc
Linux 上的 OpenCL，集成英特尔图形芯片

我想用OpenCL在 Debian 8 上我读到在本页 http streamcomputing eu blog 2011 12 29 opencl hardware support Linux 上不支持 Intel 的 GPU 这篇文章
XCode 4.5 警告父/子类的类别之间的方法名称冲突

我正在开发一个最初使用 XCode 4 0 构建的项目然后迁移到使用 XCode 4 2 现在我已经测试了迁移到 XCode 4 5 并且收到了大量如下警告 instance method values in category from
如何将模型数据对象数组转换为dataProvider

假设我有模型User与其自身有多对多的关系命名为friends so user gt friends or model gt friends在视图中给了我一个数组User对象我想将朋友显示为网格视图但CGridView数据为data
在二维动画上绘制可变大小和位置的圆圈

我正在 Python 3 3 中使用 matplotlib 我有一个动画 2d 和 3d 窗口我在上面画点这些点代表物体但不确定它们是否真的存在所以我想围绕这些点画一个圆圈来显示不确定性这种不确定性是变化的所以底线是我想在 2
JavaScript 中可以编写连续的嵌套函数吗？

我知道这就是封闭的领域但是可以连续调用嵌套的匿名函数吗假设我有这个 function testing input var testing 0 function testing testing 1 return testing 我们可以有
多列的加权平均值，按组（在 data.table 中）

这个问题紧接着另一个问题组加权平均值 https stackoverflow com questions 14145859 weighted means by group and column 我想使用创建加权组内平均值data table
自动更新AngularJS中的范围变量

我目前正在使用 AngularJS 我想从服务返回一个变量让作用域知道它何时发生变化为了说明这一点请查看 www angularjs org 中的示例连接后端粗略地我们可以看到以下内容 var projects firebase
如何使用 ITfoxtec 创建 IdP

我有兴趣使用 SAML 创建 IdP 身份提供商是否可以使用 ITfoxtec Nuget 创建完整的 IdP 功能有 ASP Net C 的示例吗是的可以使用 ITfoxtec Identity Saml 2 0 库实施 IdP
使用 WCF 将 Linq-to-Sql 对象发送到服务器时出错

我正在尝试开发一个具有 2 层的系统移动客户端和使用 LINQ to SQL 在数据库中存储信息的服务器我想创建一个在服务器中存储任务的 WCF 服务器因此它将从客户端接收任务并使用 LINQ to SQL 来存储它为了执行此服务
从键值对动态填充列

我正在使用 xslt 文件进行样式设置我以表格格式显示一些内容我需要从预定义的键值对动态填充一列请看下面的例子
动态增加android中的相对布局大小

我有一个相对布局在其中显示页面和一些内容当我缩放页面时布局尺寸没有增加我希望我的布局能够动态增加其大小我该如何设置我尝试用java代码来做 contentLayout getLayoutParams height x some
PySpark：如何分组、重新采样和前向填充空值？

考虑以下数据集in Spark 我想以特定频率例如 5 分钟对日期重新采样 START DATE dt datetime 2019 8 15 20 33 0 test df pd DataFrame school id remote r

PySpark：如何分组、重新采样和前向填充空值？

PySpark：如何分组、重新采样和前向填充空值？ 的相关文章

随机推荐

热门标签

PySpark：如何分组、重新采样和前向填充空值？的相关文章