PySpark 结构化流，窗口根据时间戳值获取最早和最新记录

2024-02-02

我有一个从 deltalake 读取的结构化流处理。数据包含随时间增加的值。在每个窗口中，我想根据该窗口内记录的时间戳来获取最早记录和最新记录之间的差异。

价值观就像

sensor_id |TimeStamp       |Value
sensor_1  |Jun 16 10:10:01 |65534
sensor_1  |Jun 16 10:10:02 |65535
sensor_1  |Jun 16 10:10:03 |0
sensor_1  |Jun 16 10:10:04 |1
...
sensor_1  |Jun 16 10:10:59 |567

我想检索每个窗口的最早值 (Jun 16 10:10:01, 65534) 和最新值 (Jun 16 10:10:59, 567)

Silver = (Bronze 
    .withWatermark("TimeStamp", "1 minute") 
    .groupBy(['sensor_id', F.window('TimeStamp', '1 minute')])
    .agg(
         F.last(F.col('value')).alias('lastvalue'), 
         F.first(F.col('value')).alias('firstvalue'), 
         F.last(F.col('TimeStamp')).alias('lastTimeStamp'),
         F.first(F.col('TimeStamp')).alias('firstTimeStamp')
         )
)

问题是顺序是不确定的https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.sql.functions.last.html https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.sql.functions.last.html

因此，“最后”记录不一定是具有最新时间戳的记录。有没有办法根据记录中的时间戳来选择最早记录和最新记录的值？

使用结构化流时排序似乎不起作用。另一种可能性是使用滞后函数并对结果求和 - 但也没有找到任何使用结构化流的工作示例。

火花3.0+ has max_by https://spark.apache.org/docs/latest/api/sql/index.html#max_by and min_by https://spark.apache.org/docs/latest/api/sql/index.html#min_by，在你的情况下可以很好地使用。

from pyspark.sql import functions as F
Bronze = spark.createDataFrame(
    [('sensor_1', '2022-02-02 10:10:01', 65534),
     ('sensor_1', '2022-02-02 10:10:02', 65535),
     ('sensor_1', '2022-02-02 10:10:03', 0),
     ('sensor_1', '2022-02-02 10:10:04', 1),
     ('sensor_1', '2022-02-02 10:11:02', 2),
     ('sensor_1', '2022-02-02 10:11:04', 4),
     ('sensor_1', '2022-02-02 10:10:59', 567)],
    ['sensor_id', 'TimeStamp', 'Value'])

Silver = (Bronze 
    .withWatermark("TimeStamp", "1 minute")
    .groupBy(['sensor_id', F.window('TimeStamp', '1 minute')])
    .agg(
         F.expr("max_by(value, TimeStamp)").alias('lastvalue'),
         F.expr("min_by(value, TimeStamp)").alias('firstvalue'),
         F.max('TimeStamp').alias('lastTimeStamp'),
         F.min('TimeStamp').alias('firstTimeStamp')
    )
)
Silver.show()
# +---------+--------------------+---------+----------+-------------------+-------------------+
# |sensor_id|              window|lastvalue|firstvalue|      lastTimeStamp|     firstTimeStamp|
# +---------+--------------------+---------+----------+-------------------+-------------------+
# | sensor_1|{2022-02-02 10:10...|      567|     65534|2022-02-02 10:10:59|2022-02-02 10:10:01|
# | sensor_1|{2022-02-02 10:11...|        4|         2|2022-02-02 10:11:04|2022-02-02 10:11:02|
# +---------+--------------------+---------+----------+-------------------+-------------------+

较旧的 Spark 版本可以使用窗口函数来完成此操作。

from pyspark.sql import functions as F, Window as W
partition = ['sensor_id', F.window('TimeStamp', '1 minute')]
w_desc = W.partitionBy(partition).orderBy(F.desc('Timestamp'))
w_asc = W.partitionBy(partition).orderBy('Timestamp')
Silver = (Bronze 
    .withWatermark("TimeStamp", "1 minute")
    .withColumn('lastvalue', F.first('Value').over(w_desc))
    .withColumn('lastTimeStamp', F.first('TimeStamp').over(w_desc))
    .withColumn('firstvalue', F.first('Value').over(w_asc))
    .withColumn('firstTimeStamp', F.first('TimeStamp').over(w_asc))
    .groupBy(*partition)
    .agg(
         F.first('lastvalue').alias('lastvalue'), 
         F.first('firstvalue').alias('firstvalue'), 
         F.first('lastTimeStamp').alias('lastTimeStamp'),
         F.first('firstTimeStamp').alias('firstTimeStamp')
    )
)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

timestamp

SparkStructuredStreaming

azuresynapse

PySpark 结构化流，窗口根据时间戳值获取最早和最新记录的相关文章

Cookie 过期时间格式

我从谷歌浏览器的 Cookies 文件和其中的一列创建了数据库cookies表是expires utc 该列的格式类似于 13169399213145330 这更像是unix时间但是当我尝试使用 unix 时间转换器时它给出了错误的值
为什么spark.memory.fraction的默认值这么低？

来自Spark配置文档 https spark apache org docs latest configuration html memory management 我们了解以下有关spark memory fraction配置参数用于
Spark Streaming 中是否需要检查点

我注意到 Spark 流示例也有检查点代码我的问题是检查点有多重要如果是为了容错那么在此类流应用程序中发生故障的频率是多少这一切都取决于您的用例假设您正在运行一个流作业它仅从 Kafka 读取数据并计算记录数如果您的应用程序在
在 Spark 中将多行汇总为单行和单列

我有一个如下的火花 DF 我需要汇总具有与单行相同 ID 的多行但值应该不同 id values 1 hello 1 hello Sam 1 hello Tom 2 hello 2 hello Tom 预期输出 id values 1 h
当我们在 Apache Spark 中使用时，无法找到 Set([TOPIC NAME,0])) 的领导者

我们使用 Apache Spark 1 5 1 和 kafka 2 10 0 8 2 1 以及 Kafka DirectStream API 通过 Spark 从 Kafka 获取数据我们使用以下设置在 Kafka 中创建了主题复制因子
如何在 Pyspark 中使用滑动窗口对时间序列数据进行数据转换

我正在尝试根据时间序列数据的滑动窗口提取特征在Scala中似乎有一个sliding函数基于这个帖子 https stackoverflow com a 28863132 3089523 and 文档 http spark apache
无法在 Windows 10 中启动 Spark Master

我是 Spark 新手我正在尝试手动启动 master 在 Windows 10 中使用 MINGW64 当我这样做时 Downloads spark 1 5 1 bin hadoop2 4 spark 1 5 1 bin hadoop2
在 Databricks / Spark 中的 SQL 中为变量分配动态值

我觉得我一定在这里遗漏了一些明显的东西但我似乎无法在 Spark SQL 中动态设置变量值假设我有两张桌子 tableSrc and tableBuilder 我正在创建tableDest 我一直在尝试变体 SET myVar FLOA
Apache Spark 和 scikit_learn 之间的 KMeans 结果不一致

我正在使用 PySpark 对数据集执行聚类为了找到簇的数量我对一系列值 2 20 进行了聚类并找到了wsse 簇内平方和每个值的值k 在这里我发现了一些不寻常的东西根据我的理解当你增加集群数量时 wsse单调递减但我得到的结
Apache Spark 何时发生混洗？

我正在优化 Spark 中的参数并且想确切地了解 Spark 是如何对数据进行洗牌的准确地说我有一个简单的字数统计程序并且想知道spark shuffle file buffer kb如何影响运行时间现在当我将此参数设置得非常高
如何在 AWS Glue 中指定联接类型？

我正在使用 AWS Glue 连接两个表默认情况下它执行INNER JOIN 我想做一个LEFT OUTER JOIN 我参考了 AWS Glue 文档但无法将联接类型传递给Join apply 方法有没有办法在 AWS Glue
在 Spark 2.4 上的 pyspark.sql.functions.max().over(window) 上使用 .where() 会引发 Java 异常

我关注了一个帖子堆栈溢出 https stackoverflow com questions 48829993 groupby column and filter rows with maximum value in pyspark 488
来自 Janino 和 Commons-Compiler 的 Spark java.lang.NoSuchMethodError

我正在构建一个使用 Spark 进行基于随机森林分类的应用程序当尝试运行该程序时我从该行收到异常 StringIndexerModel labelIndexer new StringIndexer setInputCol label
为什么 Spark 退出并显示 exitCode: 16？

我将 Spark 2 0 0 与 Hadoop 2 7 一起使用并使用纱线集群模式每次我都会收到以下错误 17 01 04 11 18 04 INFO spark SparkContext Successfully stopped S
将儒略时间戳转换为 UNIX 中的常规时间

我需要使用 Bash 将 UNIX 中的 Julian 时间戳转换为常规时间戳在 Tandem OS 上转换非常简单例子 212186319010244541 OLSAPP SYSTST 1 gt interprettimestamp
为什么我在 Mac 上看到“java.lang.reflect.InaccessibleObjectException: Unable to make private java.nio.DirectByteBuffer(long,int)accessibl

我已经在工作中愉快地构建代码好几天了但突然我的一个项目不是全部失败并出现此错误消息看看下面的答案吧我是如何修复它的起初我用谷歌搜索看到很多有这个问题的人正在使用 Java 16 但我认为错误我正在使用 Java 11 因为
使用 Pyspark 从 S3 读取时，内容长度分隔消息正文过早结束 SparkException

我正在使用下面的代码来阅读S3 csv 文件从我的本地机器 from pyspark import SparkConf SparkContext from pyspark sql import SparkSession import con
Spark Dataframe 中的分析

在这个问题中我们有两个经理 M1 和 M2 在经理 M1 的团队中有两个员工 e1 和 e2 在 M2 的团队中有两个员工 e4 和 e5 以下是经理和员工的层次结构 1 M1 a e1 b e2 2 M2 a e4 b e5 我们有以下
如何通过数据框中数组列的索引计算平均值

我正在使用 Spark 2 2 我有一个关于合作的基本问题ArrayType 我没有找到可以使用的内置聚合函数 Given a DataFrame有一个柱子id和一列values of ArrayType 我们想按 id 分组然后按索引计
Spark 和 Scala 中的文本操作

这是我的数据 review text The product picture and part number match but they together do not math the description review text A

随机推荐

使用特征值测试奇点：识别共线列

我正在尝试使用特征值方法检查我的矩阵是否是奇异的即如果特征值之一为零则矩阵是奇异的这是代码 z lt matrix c 3 2 1 4 9 6 3 12 5 5 9 4 nrow 4 ncol 3 eigen t z z value
在 jframe 中调用 jpanel 的 PaintComponent

我有一个JFrame with a JPanel on it JPanel是私有的JFrame 现在我想覆盖JPanel通过使用paintComponent方法我怎样才能做到这一点当您创建实例时JPanel 假设您这样做请执行以下操作
如何使用 gstreamer 在两个不同的显示器上同时播放两个不同的视频

我在用 Raspberry Pi 4 B 型有 2 个 HDMI 端口 Gstreamer 1 0 我有两个视频保存在存储卡中我想将两个视频驱动到两个不同的 HDMI 端口并同时在两个不同的显示器上播放视频我想知道 Gstreame
保存和测试分区集合的存储过程/触发器（可能是用户定义的函数）

尝试将修改保存到分区集合中创建的存储过程时我收到以下错误保存脚本失败以下是 Azure 门户中的详细信息操作名称无法保存脚本时间戳 2017 年 2 月 17 日星期五 08 46 32 GMT 0500 东部标准时间活动发起
我需要为关系数据库表的主键创建单独的索引吗

如果我使用主键创建表则会自动为表创建索引还是需要单独执行即如果这是表 ddl CREATE TABLE release guid varchar 36 NOT NULL PRIMARY KEY name varchar 255 xml
BeautifulSoup:
TEXT I WANT

我正在尝试使用 BeautifulSoup 提取 id titleDescription 所包含的字符串 div class itemText div class wrapper span class itemPromo Customer
根据 GPS 坐标计算 PNG 地图上的 X 和 Y 位置

我正在 iPhone 应用程序上实现自定义地图尺寸为 map width 和 map height 的图像并尝试在该地图上显示当前用户位置 current long 和 current lat 我有 2 个参考点具有已知的 GPS 坐
在 while_loop TensorFlow 函数内索引列表

Hello 我有一个问题我实际上有一个清单真正的Python列表占位符我的清单很长n T 在下面的代码中如下 my list D0 K D1 K Dn K 其中 Di 不必具有相同的大小这就是我使用列表的原因因为我无法在没有填
android x 设计依赖

如何导入 androidx 设计依赖项我尝试导入 implementation androidx design design 1 0 2 应用程序紧凑版本是 implementation androidx appcompat appcom
当仅将 C_LOC 地址返回到 C 程序时，Fortran 变量需要 SAVE 属性吗？

通常情况下 SAVE属性在 Fortran 类型声明中使用以便变量在子程序结束时保留其值例如 SO 问题的答案中所描述的here https stackoverflow com q 2893097 7038689 然而我最近举了一个例
我的应用程序在横向模式下崩溃

我不知道出了什么问题每当我在模拟器上启动我的应用程序并切换到横向模式时它都会崩溃但在纵向模式下它工作得很好请问我可以做什么来解决这个问题提前致谢这是我的代码 MainActivity class import android a
如何在 Next.js 中动态导入非 React 客户端库？

我有一个简单的项目 import Music from components music export default function Home return
无法使用 matplotlib 底图和 cx_freeze 冻结脚本

再次回来我仍在努力但无法修复它该脚本运行良好但当我使用 cx freeze 冻结它时会出现 cx freeze 错误消息末尾说 OSError 找不到项目数据目录期待它在 C python34 mpl toolkits bas
“现在”和给定日期之间的差异

我需要检索集合中存在差异的所有文档新的 ISODate 并且文档的日期字段应该大于给定的参数我可以通过查询在 mongo shell 上执行此操作 db getCollection tb registered app aggregate
Visual Studio 无法打开网站错误

我使用 Visual Studio 2008 并处理一个包含网站的 Web 项目打开解决方案文件时我收到错误消息无法打开网站 http localhost myWebsite de 网站 http localhost myWebsit
jest.mock 不适用于 Javascript 测试和 Typescript 模块

我的嘲笑utilFunction没有被使用并且向工厂函数添加日志记录表明它从未被调用我已经尝试过搜索 jest mock 不使用相对路径并且 jest mock 没有被 Typescript 调用认为它可能与 JS 测试和 TS 源
使用 JAXB 将空列表编组为缺席节点

使用 JAXB 我希望能够将空列表编组为缺失节点我认为 EclipseLink MOXy 有这种可能性但我无法让它工作根据 http wiki eclipse org User Rick barkhouse oracle com Te
如何在内存中没有密钥的情况下对 EF core 3 视图进行单元测试？

我正在使用 EF Core 3 并编写一些单元测试但似乎无法为视图设置测试数据当我尝试保存时出现错误无法跟踪类型的实例因为它没有主键只能跟踪具有主键的实体类型 public class EFContext DbContext p
django - DetailView如何同时显示两个模型

我有两个模型广告和横幅当我使用通用视图 DetailView时我怎样才能同时带两个模型下面的代码只带一个广告我的网址 py url r P
PySpark 结构化流，窗口根据时间戳值获取最早和最新记录

我有一个从 deltalake 读取的结构化流处理数据包含随时间增加的值在每个窗口中我想根据该窗口内记录的时间戳来获取最早记录和最新记录之间的差异价值观就像 sensor id TimeStamp Value sensor 1 Ju

PySpark 结构化流，窗口根据时间戳值获取最早和最新记录

PySpark 结构化流，窗口根据时间戳值获取最早和最新记录 的相关文章

随机推荐

热门标签

PySpark 结构化流，窗口根据时间戳值获取最早和最新记录的相关文章