在 Spark 结构化流中组合窗口 (groupBy) 和 mapGroupsWithState (groupByKey)

2024-02-22

目前使用 Spark 2.2.0 结构化流。

给定带有水印的时间戳数据流，有没有办法结合（1）groupBy通过时间戳字段和其他分组标准实现窗口化的操作（2）groupByKey操作才能申请mapGroupsWithState到自定义会话组？

或者我是否必须以某种方式将窗口和其他分组逻辑嵌入到groupByKey?

对于上下文：

calling groupBy，支持窗口化，在数据集上返回一个关系分组数据集 https://spark.apache.org/docs/2.2.0/api/scala/index.html#org.apache.spark.sql.RelationalGroupedDataset哪个没有mapGroupsWithState.
calling groupByKey，它支持mapGroupsWithState，返回一个键值分组数据集 https://spark.apache.org/docs/2.2.0/api/scala/index.html#org.apache.spark.sql.KeyValueGroupedDataset，但是不支持窗口！

Edit:

该问题现已跟踪SPARK-21641 https://issues.apache.org/jira/browse/SPARK-21641 - 在 Spark 结构化流中组合窗口 (groupBy) 和 mapGroupsWithState (groupByKey).

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

SparkStructuredStreaming

在 Spark 结构化流中组合窗口 (groupBy) 和 mapGroupsWithState (groupByKey) 的相关文章

在 Jupyter 笔记本中使用 PySpark 读取 XML

我正在尝试读取 XML 文件 df spark read format com databricks spark xml load path to my xml 并收到以下错误 java lang ClassNotFoundExceptio
Spark 写入 hdfs 无法使用 saveAsNewAPIHadoopFile 方法

我在 CDH 5 2 0 上使用 Spark 1 1 0 并试图确保我可以读取和写入 hdfs 我很快意识到 textFile 和 saveAsTextFile 调用旧的 api 并且似乎与我们的 hdfs 版本不兼容 def testHD
由于 UTFDataFormatException 导致 Spark 中的任务无法序列化：编码字符串太长

我在 Yarn 上运行 Spark 应用程序时遇到一些问题我有非常广泛的集成测试运行时没有任何问题但是当我在 YARN 上运行应用程序时它将抛出以下错误 17 01 06 11 22 23 ERROR yarn Applicatio
如何访问 Spark Streaming 应用程序的统计端点？

从 Spark 2 2 0 开始 API 中有新的端点用于获取有关流作业的信息我在 EMR 集群上运行 Spark 在集群模式下使用 Spark 2 2 0 当我到达流作业的端点时它给我的只是错误消息没有附加到的流侦听器我已经深入研
使用什么工具来可视化逻辑和物理查询计划？

我很熟悉explain 还有 WebUI 我很好奇是否有任何工具可以生成优化前后逻辑物理计划的树结构图像也就是返回的信息explain 作为图像 PNG 或 JPG 之类的图片我自己从未听说过但您可以使用 Web UI 查看物理计划
Spark shuffle 溢出指标

在 Spark 2 3 集群上运行作业时我在 Spark WebUI 中注意到某些任务发生了溢出据我所知在reduce端 reducer获取所需的分区随机读取然后使用执行器的执行内存执行reduce计算由于没有足够的执行内存一
使用notebook时将jar添加到pyspark

我正在尝试将 mongodb hadoop 与 Spark 集成但不知道如何使 IPython 笔记本可以访问这些 jar 这是我想做的 set up parameters for reading from MongoDB via Had
Spark 输出：日志式与进度式

spark submit两个不同集群都运行 Spark 1 2 上的输出看起来不同一个是日志式即大量消息流例如 15 04 06 14 53 13 INFO TaskSetManager Starting task 262 0 i
嵌套 json 中的结构化流式传输不同模式

您好我有一个场景传入的消息是一个 Json 其标题为表名数据部分包含表列数据现在我想将其写入镶木地板到单独的文件夹 emp and dept 我可以通过根据表名聚合行来在常规流式传输中实现此目的但在结构化流媒体中我无法分割它我怎
如何使用 Spark-submit 命令获取提交到 Spark 集群的作业的应用程序 ID/作业 ID？

我正在使用 Spark submit 命令提交 Apache Spark 作业我想检索使用 Spark submit 命令提交的作业的应用程序 ID 或作业 ID 推荐的方式应该是什么可以解析 Spark submit 命令的输出以获取
在地图类型中创建 DataFrame 分组列

My 数据框具有以下结构 df spark createDataFrame B a 10 B b 20 C c 30 Brand Type Amount df show Brand Type Amount B a 10 B b 20 C c
Spark-shell 使用不同版本的 Scala。使用 homebrew 安装 scala 和 apache-spark

我使用 homebrew 安装了 scala 和 apache spark 它安装了 scala 2 12 4 和 apache spark 2 2 0 但是如果您结帐spark shell version它使用不同的 scala 版本
为什么spark.memory.fraction的默认值这么低？

来自Spark配置文档 https spark apache org docs latest configuration html memory management 我们了解以下有关spark memory fraction配置参数用于
将类型安全配置conf文件传递给DataProcSparkOperator

我正在使用 Google dataproc 提交 Spark 作业并使用 google Cloud Composer 来安排它们不幸的是我面临着困难我依靠 conf文件类型安全配置文件将参数传递给我的 Spark 作业我正在将
Spark Streaming 中是否需要检查点

我注意到 Spark 流示例也有检查点代码我的问题是检查点有多重要如果是为了容错那么在此类流应用程序中发生故障的频率是多少这一切都取决于您的用例假设您正在运行一个流作业它仅从 Kafka 读取数据并计算记录数如果您的应用程序在
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
PySpark DataFrame 上分组数据的 Pandas 式转换

如果我们有一个由一列类别和一列值组成的 Pandas 数据框我们可以通过执行以下操作来删除每个类别中的平均值 df DemeanedValues df groupby Category Values transform lambda g
对 Spark 数据集中的数字字符串进行排序

假设我有以下内容Dataset productCode amount XX 13 300 XX 1 250 XX 2 410 XX 9 50 XX 10 35 XX 100 870 Where productCode is of Strin
如何在 Spark 数据帧 groupBy 中执行 count(*)

我的目的是做相当于基本sql的事情 select shipgrp shipstatus count cnt from shipstatus group by shipgrp shipstatus 我见过的 Spark 数据帧的示例包括其他列
为什么 Spark 退出并显示 exitCode: 16？

我将 Spark 2 0 0 与 Hadoop 2 7 一起使用并使用纱线集群模式每次我都会收到以下错误 17 01 04 11 18 04 INFO spark SparkContext Successfully stopped S

随机推荐

Android上限制用户在输入字段中输入句点

我想限制用户在 Android 设备上的数字字段中输入特殊字符这点字符未按预期在 onkeypress 事件中传递值 With
PresentationButton 隐藏视图中的图像

我正在尝试添加一个PresentationButton到包含一些内容的视图 CardViewText and Image 代码如下所示 PresentationButton destination ProfileHost CardView
UISearchbar (UISearchResultsUpdating) 与 Segue 不会解除

我有一个问题UISearchBar 当我结合搜索一些文本时UITableView 然后单击一个结果单元格 UISearchBar下一个仍然可见UIViewController the UISearchbar仍然在那里带有关键字因此在单
Laravel Eloquent：如何对相关模型的结果进行排序？

我有一个模型叫School它有很多Students 这是我的模型中的代码 public function students return this gt hasMany Student 我让所有学生在我的控制器中使用此代码 school S
单击我的源代码时如何突出显示 VScode live server 中的部分？

Question 编辑brackets可以做到这一点假设当我单击源代码文件中的 html 标签时浏览器会自动突出显示该部分 div在谷歌等浏览器中Chrome 开发者工具 Step 1 单击我的源代码文件中的我的标签 Step 2 直
Python：从字符串访问类属性[重复]

这个问题在这里已经有答案了我有一堂课如下 class User def init self self data self other data def doSomething self source if source other dat
结构体的合并排序

include
ListView setOnItemClickListener 和 setOnItemSelectedListener 来存储所选项目索引

我在这个网站上读到如果我们想知道 SelectedItem getSelectedItemPosition 的索引则需要自定义 ListView 的 setOnItemSelectedListener 和 setOnItemClickL
“let”内部 shell 命令在 shell 脚本中不起作用？

I did a 1234 let a a 1 在命令行上没问题但是当我在 shell 脚本中做同样的事情时它打印出错误 let not found 这是脚本文件 bin sh a 1234 let a a 1 echo a Thank
为什么openfire的用户在会话中不存在SESSION的情况下仍保持在线

I m developing an android app contains Messaging using OpenFire as an XMPP server and using Smack for android client All
将参数从 SSRS 数据集传递到 Snowflake

有没有办法将参数从 SSRS 数据集传递到 Snowflake 以前我将 SSRS 连接到 SqlServer DB 并将参数作为 client id 传递我想将查询移动到在 Snowflake 上运行但我不知道如何传递参数来查询当我
从 C# 批量插入数据库的最佳方法是什么？

我如何什么是进行批量数据库插入的最佳方法在 C 中我迭代集合并为集合中的每个项目调用插入存储过程如何在一次数据库调用中发送所有数据例如说我有一个人员名单 List
PHP：mb_strtoupper 不工作

我对 UTF 8 和 mb strtoupper 有疑问 mb internal encoding UTF 8 guesstitlestring Le Courrier de S int Hy cinthe encoding mb dete
如何使用 Selenium 和 Java 单击 reCAPTCHA

为什么在尝试让驱动程序单击 reCAPTCHA 按钮时出现错误这是我试图让它工作的网站 https rsps100 com vote 760 https rsps100 com vote 760 到目前为止这是我当前的代码 WebEle
Visual Studio (VS2008)、Windows 窗体应用程序中的远程调试

我正在尝试远程调试 Windows 窗体应用程序 C 但总是收到此错误无法连接到 Microsoft Visual Studio 远程调试监视器名为 XXX Visual Studio 遥控器目标计算机上的调试器无法连接回这台计算机
numpy 如何获取特定坐标处元素的值？

我找到了获取 numpy 数组的最大值然后获取坐标的方法但是有没有办法做相反的事情我的意思是通过输入二维坐标来获取数组元素的值非常感谢您的帮助 Cheers David 语法是A row number column number
Python 向上和向下计数循环

我怎样才能简单地转换这个循环以从 1 计数到 100 并显示数字我最近开始写代码了倒数时效果很好但我不知道如何让它从 1 100 example count 100 while count gt 0 print count count
Magento 管理员 404

我们最近将多域 magento 设置从共享主机迁移到专用服务器一切工作正常但当我尝试进入管理部分时登录后出现任何 404 错误如果我从网址中删除index php 它似乎可以工作但是一旦我单击管理部分中的另一个链接它就会再次出现
无法将按钮与水平形式对齐（非内联）（Bootstrap）

在下面的代码中我有 2 个按钮和 3 个带标签的输入我希望按钮与输入对齐但它们与标签对齐我尝试过内联表单但将标签放在侧面是行不通的在不过度破坏引导程序的情况下完成此任务的最佳选择是什么
在 Spark 结构化流中组合窗口 (groupBy) 和 mapGroupsWithState (groupByKey)

目前使用 Spark 2 2 0 结构化流给定带有水印的时间戳数据流有没有办法结合 1 groupBy通过时间戳字段和其他分组标准实现窗口化的操作 2 groupByKey操作才能申请mapGroupsWithState到自定义会话组

在 Spark 结构化流中组合窗口 (groupBy) 和 mapGroupsWithState (groupByKey)

在 Spark 结构化流中组合窗口 (groupBy) 和 mapGroupsWithState (groupByKey) 的相关文章

随机推荐

热门标签