在 Spark 结构化流中组合窗口 (groupBy) 和 mapGroupsWithState (groupByKey)

2024-02-22

目前使用 Spark 2.2.0 结构化流。

给定带有水印的时间戳数据流,有没有办法结合(1)groupBy通过时间戳字段和其他分组标准实现窗口化的操作(2)groupByKey操作才能申请mapGroupsWithState到自定义会话组?

或者我是否必须以某种方式将窗口和其他分组逻辑嵌入到groupByKey?

对于上下文:

  • calling groupBy,支持窗口化,在数据集上返回一个关系分组数据集 https://spark.apache.org/docs/2.2.0/api/scala/index.html#org.apache.spark.sql.RelationalGroupedDataset哪个没有mapGroupsWithState.

  • calling groupByKey,它支持mapGroupsWithState,返回一个键值分组数据集 https://spark.apache.org/docs/2.2.0/api/scala/index.html#org.apache.spark.sql.KeyValueGroupedDataset,但是不支持窗口!

Edit:

该问题现已跟踪SPARK-21641 https://issues.apache.org/jira/browse/SPARK-21641 - 在 Spark 结构化流中组合窗口 (groupBy) 和 mapGroupsWithState (groupByKey).


None

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在 Spark 结构化流中组合窗口 (groupBy) 和 mapGroupsWithState (groupByKey) 的相关文章

随机推荐