使用 pyspark 结构化流计算移动平均列

2024-02-20

我正在使用 pyspark 处理一些传入的流数据，我想向我的数据帧添加一个具有 50 秒移动平均值的新列。

我尝试使用带有 rangeBetween 的 Window 规范：

import pyspark.sql.window as W

w = (W.Window()
     .partitionBy(col("sender"))
     .orderBy(F.col("event_time").cast('long'))
     .rangeBetween(-50, 0))
df2 = df.withColumn('rolling_average', F.avg("fr").over(w))

但这给了我一个错误，因为结构化流需要基于时间的窗口（可能是为了管理状态）：

AnalysisException: Non-time-based windows are not supported on streaming DataFrames/Datasets

使用 sql.window 函数，我还可以计算移动平均值，但这将通过对使用翻滚（或跳跃）窗口的窗口（以及称为发送者的唯一 id 键）进行分组来给出结果：

df.select('sender', 'event_time', 'fr').groupBy("sender", window("event_time", "50 second")).avg().alias('avg_fr')

sender	window	avg(fr)
59834cfd-6cb2-4ece-8353-0a9b20389656	{"start":"2021-04-12T09:57:30.000+0000","end":"2021-04-12T09:58:20.000+0000"}	0.17443667352199554
8b5d90b9-65d9-4dd2-b742-31c4f0ce37d6	{"start":"2021-04-12T09:57:30.000+0000","end":"2021-04-12T09:58:20.000+0000"}	0.010564474388957024
a74204f3-e25d-4737-a302-9206cd69e90a	{"start":"2021-04-12T09:57:30.000+0000","end":"2021-04-12T09:58:20.000+0000"}	0.16375258564949036
db16426d-a9ba-449b-9777-3bdfadf0e0d9	{"start":"2021-04-12T09:57:30.000+0000","end":"2021-04-12T09:58:20.000+0000"}	0.17516431212425232

翻滚窗口显然不是我想要的，我需要以某种方式将其再次连接到原始表。我不确定如何根据传入的不规则事件时间戳定义滑动窗口。

现在，我考虑编写一个有状态函数，将一组先前接收到的记录存储到一个状态中，并为每个进入的新数据点更新该状态。但这对于我期望可以在一个常见活动中完成的这种常见活动来说似乎相当复杂。更简单的方法。

编辑：当前版本的 Spark (3.1.1) 只允许在 Java 或 Scala（而不是 python）中构建任意有状态函数，以保护到 JVM 的转换。

有什么想法这是否真的是正确的方法？

您收到异常是因为您似乎正在构建用于批处理的窗口，而不是流数据帧。

在《结构化流编程指南》部分中事件时间的窗口操作 https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#window-operations-on-event-time给出了一个可以应用于您的用例的示例：

streamDf = ...  # streaming DataFrame of schema { event_time: Timestamp, sender: String, fr: Integer }

# Group the data by window and sender and compute the average of each group
movingAverageDf = streamDf.groupBy(
    window(streamDf.event_time, "50 seconds", "5 seconds"),
    streamDf.sender
).avg(streamDf.fr)

请记住，如果不使用水印，应用程序的内部状态将无限期增长。因此建议还添加水印。确保在水印中使用与窗口相同的事件时间。

关于流查询的输出模式的另一个注释：查看概述输出模式 https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#output-modes了解您的流式查询支持哪些模式。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PySpark

SparkStructuredStreaming

movingaverage

使用 pyspark 结构化流计算移动平均列的相关文章

无法使用 PySpark 和 Databricks Connect 连接到 Azure Data Lake Gen2

最近 Databricks 推出Databricks Connect that 允许您使用 Spark 本机 API 编写作业并让它们在 Azure Databricks 群集上远程执行而不是在本地 Spark 会话中执行除非我尝试访
Pyspark 错误：Java 网关进程在发送其端口号之前退出

我正在使用 Pyspark 在 Jupyter Notebook 中运行一些命令但它抛出错误我尝试了此链接中提供的解决方案 Pyspark 异常 Java 网关进程在向驱动程序发送其端口号之前退出 https stackoverflow
PySpark，Win10 - 系统找不到指定的路径

我之前将 PySpark 作为通过 pip 安装的 Python 包安装最近我使用干净版本的 Python 卸载了它并下载了独立版本在我的用户变量中我创建了一个名为 SPARK HOME 的路径值为 C spark 2 3 2 bi
Jupyter + EMR + Spark - 从本地计算机上的 Jupyter 笔记本连接到 EMR 集群

我是 PySpark 和 EMR 的新手我尝试通过 Jupyter Notebook 访问 EMR 集群上运行的 Spark 但遇到错误我使用以下代码生成 SparkSession spark SparkSession builder
delta Lake - 在 pyspark 中插入 sql 失败，并显示 java.lang.NoSuchMethodError: org.apache.spark.sql.catalyst.expressions.Alias

Dataproc 集群是使用映像创建的2 0 x带有 Delta io 包io delta delta core 2 12 0 7 0 Spark版本是3 1 1 Spark shell 启动于 pyspark conf spark sql
Spark任务仅在一个执行器上运行

大家好首先我知道这个线程的存在 Spark 中的任务仅在一个执行器上运行 https stackoverflow com questions 53425983 task is running on only one executor in
Apache Spark 警告“在 RowBasedKeyValueBatch 上调用溢出()”的含义

我正在使用 Apache Spark 本地模式运行 pyspark 2 2 0 作业并看到以下警告 WARN RowBasedKeyValueBatch Calling spill on RowBasedKeyValueBatch Wil
在 Spark 执行器节点上安装 Python 依赖项的最简单方法？

据我所知您可以将单个文件作为 Python Spark 程序的依赖项发送但是成熟的库例如 numpy 呢 Spark 是否有办法使用提供的包管理器例如 pip 来安装库依赖项或者这必须在 Spark 程序执行之前手动完成如果答案
如何计算r中两年的移动平均值

我有一个关于并购 M As 的大数据框 900k 行 df 有四列 date 并购完成时目标国家被合并收购的国家的公司收购方国家收购方是哪个国家的公司以及big corp 无论收购方是否是大公司其中 TRUE 表示该公司很大
如果我们在更大的表中使用广播会发生什么？

我想知道如果我们广播较大的表并将其加入到较小的表中会发生什么另外如果我们有两个同样大的表在这种情况下使用广播连接会发生什么有几件事需要考虑火花上限 Spark支持最大8GB的广播表如果你的广播对象超过这个数量它就会失败驱动程
如何在 PySpark 数据框中创建动态组？

虽然问题是基于连续行的两个或多个列的值创建多个组但我只是通过这种方式简化问题假设有这样的 pyspark 数据框 gt gt gt df sqlContext createDataFrame Row SN 1 age 45 gender
如何在 AWS Glue 中使用 Spark 包？

我想使用 DatastaxSpark Cassandra 连接器 https mvnrepository com artifact com datastax spark spark cassandra connector 2 12 2 5
将数据作为 RDD 保存回 Cassandra

我试图从 Kafka 读取消息处理数据然后将数据添加到 cassandra 中就像它是 RDD 一样我的麻烦是将数据保存回 cassandra 中 from future import print function from pys
保存的数据带有不需要的引号

我使用以下代码将数据框导出到 csv data write format com databricks spark csv options delimiter t codec org apache hadoop io compress Gz
在 Spark-submit 上的 _find_and_load 中获取文件“”，第 991 行

我目前使用的是Python 3 7 9 spark spark 2 4 6 bin hadoop2 6 在这个项目 venv 中我的设置为 kafka python 2 0 2 pip 21 2 4 py4j 0 10 9 pyspark
使用 pyspark 连接 PostgreSQL

我正在尝试使用 pyspark 连接到数据库并且使用以下代码 sqlctx SQLContext sc df sqlctx load url jdbc postgresql hostname database dbtable SELECT
如何从 PySpark 中某个表中找到的多个表中获取所有数据？

我正在使用 pyspark SQL 我有一个包含三列的表 MAIN TABLE DATABASE NAME TABLE NAME SOURCE TYPE 我想从 DATABASE NAME 和 TABLE NAME 列中的主表下找到的实际数
Python Spark DataFrame：用 SparseVector 替换 null

在 Spark 中我有以下名为 df 的数据框其中包含一些空条目 id features1 features2 185 5 0 1 4 0 1 0 null 220 5 0 2 3 0 1 0 10 1 2 6 0 1 225 null
将 Spark 数据框中的时间戳转换为日期

我见过这里如何将DataFrame中的时间戳转换为日期格式 https stackoverflow com questions 40656001 how to convert timestamp to date format in da
从 pandas udf 记录

我正在尝试从 python 转换中调用的 pandas udf 进行日志记录因为在执行器上调用的代码不会显示在驱动程序的日志中我一直在寻找一些选项但到目前为止最接近的选项是这个one https stackoverflow com q

随机推荐

如何在 Amazon Web Services EC2 实例上安装 MySQL-python？

我在 AWS 上创建了一个 EC2 实例并使用 PuTTY 连接到它我无法安装MySQL python使用Pythonpip命令如下 pip 安装 MySQL python 通过root权限这是错误的控制台输出 Collecting
C++ const 在类方法中的使用[重复]

这个问题在这里已经有答案了可能的重复 const 这里有什么用 https stackoverflow com questions 2025159 whats the use of const here 在类的函数中使用 const ht
将 Python 控制台输出打印到 Qtextedit

当我按下按钮时我有这样的输出版本 ROMMON 主机名正常运行时间 RUNNING IMAGE 硬件串行 CONFIG REGISTER 12 2 55 SE7 引导程序 Revo Solusindo 01 1 小时 27 分钟 c
在 Amazon Linux 虚拟服务器上的 Python 2.7 上安装 GDAL

我正在运行一个 t2 micro Amazon Linux 实例 Python 2 7 12 已预安装我想用 Python 安装 GDAL 我已经安装了 gcc c 和 numpy 以下命令都不适合我 sudo yum install g
开发多语言 Windows 应用程序 C#

我问的是 C 中用于支持 Windows 窗体多语言界面的常用技术我在这里所说的一切几年内国际化桌面应用程序我们现在应该做什么 https stackoverflow com questions 270829 internationa
在新的 Jetpack API 中使用定位“面板”

我现在使用新版本的 Jetpack API 它允许您使用 JS 框架为 Firefox 创建插件面板对象很容易使用但我正在努力寻找一种定位它的方法该文档简单地指出 Jetpack 面板 API https builder mozil
如何在 Grails 中设置 JSON 转换器的日期格式

我的 Grails 控制器中有一个方法应该返回 JSON JSON 的属性是 Date 对象但是当我这样做时 render myObject as JSON 输出如下 dateProperty 2010 12 31T23 00 00Z o
在Android应用程序中添加多个文件提供程序

伙计们我正在开发一个 Android 应用程序我需要外部应用程序依赖项 aar 文件库应用程序有自己的文件提供程序我的应用程序也有自己的文件提供程序当我将其作为单独的应用程序运行时库运行良好但是当我将其包含在我的应用程序中时
如何在应用程序启动时连续播放mp3，并在用户在后台关闭应用程序时停止播放mp3

我正在编写一个应用程序其中允许用户查看图像并选择其中一个来设置壁纸在这个应用程序中我还想在用户启动应用程序时播放 mp3 并在用户关闭应用程序时停止该 mp3 我已将 MP3 音乐文件存储在res raw文件夹即我的音乐 mp3 我知
正则表达式电子邮件验证

我用这个 w w w 2 3 正则表达式来验证电子邮件 w 这是一级域名许多字母和数字还有点和连字符 w 这是二级域名 w 2 3 这适用于其他级别域从 3 到无穷大其中包括一个点和 2 或 3 个文字这个正则表达式有什么问题编
如何使用 iTextSharp 编辑 PDF？

我想使用 C 代码以编程方式编辑 PDF 文件我知道这很难是否可以使用 itextsharp 或者有什么替代方案正如OP在对该问题的评论中澄清的那样标记删除的文本不应出现在 pdf 的打印视图中因此这里有一个简单的解决方案
如何修复“IMvcBuilder”不包含“AddXmlDataContractSerializerFormatters”的定义

我有最新的 Net Core v2 1 4 我尝试添加AddXmlDataContractSerializerFormatters in the Startup cs文件但它报告说IMvcBuilder不包含它的定义 My startup
将罗马数字转换为整数

我下面的罗马数字到整数转换器 https www selftaughtjs com algorithm sundays converting roman numerals https www selftaughtjs com algorit
委托泛型操作，其中泛型类型未知。如何创建这样的东西？

假设我有以下代码 static class Store
Active Storage：在 video_tag 中显示视频

在 Rails 5 2 应用程序中我想显示之前通过 Active Storage 在 S3 中上传的视频当我使用这个时我收到此错误 The asset is not present in the asset pipeline 我检查了
为什么编译器在没有闭包的情况下为委托添加额外的参数？

我正在玩delegates并注意到当我创建一个Func
如何解析Python库中的数据包？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案如何使用 python 从 pcap 文件或接口解析数据包我正在专门寻找一个使用记录良好的库的解决方案
如何以编程方式更改默认声音播放设备？

如何以编程方式更改 vista 中播放和录制的默认音频设备是否有像Windows XP中的声音管理器那样的注册表设置哪个 API 可以实现系统托盘音频设备切换器使用 Software Microsoft Multimedia Soun
零寄存器如何提高性能？

在 MIPS ISA 中有一个零寄存器 r0 始终给出零值这允许处理器任何产生要被丢弃的结果的指令都可以将其目标定向到该寄存器成为一个来源0 据说在这source https web archive org web 20170328
使用 pyspark 结构化流计算移动平均列

我正在使用 pyspark 处理一些传入的流数据我想向我的数据帧添加一个具有 50 秒移动平均值的新列我尝试使用带有 rangeBetween 的 Window 规范 import pyspark sql window as W w W

使用 pyspark 结构化流计算移动平均列

使用 pyspark 结构化流计算移动平均列 的相关文章

随机推荐

热门标签

使用 pyspark 结构化流计算移动平均列的相关文章