为什么Complete输出模式需要聚合？

2024-02-25

我在 Apache Spark 2.2 中使用最新的结构化流处理并遇到以下异常：

org.apache.spark.sql.AnalysisException：完整输出模式不当流上没有流聚合时支持数据框/数据集；；

为什么完整输出模式需要流式聚合？如果 Spark 允许流式查询中没有聚合的完整输出模式，会发生什么？

scala> spark.version
res0: String = 2.2.0

import org.apache.spark.sql.execution.streaming.MemoryStream
import org.apache.spark.sql.SQLContext
implicit val sqlContext: SQLContext = spark.sqlContext
val source = MemoryStream[(Int, Int)]
val ids = source.toDS.toDF("time", "id").
  withColumn("time", $"time" cast "timestamp"). // <-- convert time column from Int to Timestamp
  dropDuplicates("id").
  withColumn("time", $"time" cast "long")  // <-- convert time column back from Timestamp to Int

import org.apache.spark.sql.streaming.{OutputMode, Trigger}
import scala.concurrent.duration._
scala> val q = ids.
     |   writeStream.
     |   format("memory").
     |   queryName("dups").
     |   outputMode(OutputMode.Complete).  // <-- memory sink supports checkpointing for Complete output mode only
     |   trigger(Trigger.ProcessingTime(30.seconds)).
     |   option("checkpointLocation", "checkpoint-dir"). // <-- use checkpointing to save state between restarts
     |   start
org.apache.spark.sql.AnalysisException: Complete output mode not supported when there are no streaming aggregations on streaming DataFrames/Datasets;;
Project [cast(time#10 as bigint) AS time#15L, id#6]
+- Deduplicate [id#6], true
   +- Project [cast(time#5 as timestamp) AS time#10, id#6]
      +- Project [_1#2 AS time#5, _2#3 AS id#6]
         +- StreamingExecutionRelation MemoryStream[_1#2,_2#3], [_1#2, _2#3]

  at org.apache.spark.sql.catalyst.analysis.UnsupportedOperationChecker$.org$apache$spark$sql$catalyst$analysis$UnsupportedOperationChecker$$throwError(UnsupportedOperationChecker.scala:297)
  at org.apache.spark.sql.catalyst.analysis.UnsupportedOperationChecker$.checkForStreaming(UnsupportedOperationChecker.scala:115)
  at org.apache.spark.sql.streaming.StreamingQueryManager.createQuery(StreamingQueryManager.scala:232)
  at org.apache.spark.sql.streaming.StreamingQueryManager.startQuery(StreamingQueryManager.scala:278)
  at org.apache.spark.sql.streaming.DataStreamWriter.start(DataStreamWriter.scala:247)
  ... 57 elided

来自结构化流编程指南 https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#output-modes- 其他查询（不包括聚合，mapGroupsWithState and flatMapGroupsWithState):

不支持完整模式，因为无法将所有未聚合的数据保留在结果表中。

回答这个问题：

如果 Spark 允许流式查询中没有聚合的完整输出模式，会发生什么？

可能是OOM。

令人费解的部分是为什么dropDuplicates("id")未标记为聚合。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

SparkStructuredStreaming

为什么Complete输出模式需要聚合？的相关文章

获取 Spark 中组的最后一个值

我有一个 SparkR DataFrame 如下所示 Create R data frame custId lt c rep 1001 5 rep 1002 3 1003 date lt c 2013 08 01 2014 01 01 20
按分区“内”键进行高效分组

我正在尝试调整一个流程来激发火花基本上该过程分析来自 JDBC 数据源的批量数据每条记录都有一个batchId 还有一个更高级别的groupId 批次数量较大提前未知组数约为 100 RAM 中可以容纳每个批次的记录数实际的分析
如果为 null 则替换为 0，否则在同一列中使用默认值

在SparkR shell 1 5 0中创建了一个示例数据集 df test lt createDataFrame sqlContext data frame mon c 1 2 3 4 5 year c 2011 2012 2013 2
使用Log4j在日志中输出Spark应用程序id

我有一个用于 Spark 应用程序的自定义 Log4j 文件我想输出 Spark 应用程序 ID 以及消息和日期等其他属性因此 JSON 字符串结构如下所示 name time date level thread message app
保存的数据带有不需要的引号

我使用以下代码将数据框导出到 csv data write format com databricks spark csv options delimiter t codec org apache hadoop io compress Gz
pyspark中的稀疏向量RDD

我一直在使用 mllib 的功能通过 Python Pyspark 实现此处描述的 TF IDF 方法 https spark apache org docs 1 3 0 mllib feature extraction html http
pyspark：计算窗口上的不同值

我刚刚尝试做一个countDistinct越过一个窗口并得到这个错误 AnalysisException 不支持不同的窗口函数计数不同颜色 1926 有没有办法在 pyspark 的窗口上进行不同的计数这是一些示例代码 from py
使用列值作为 Spark DataFrame 函数的参数

考虑以下数据框 letter rpt X 3 Y 1 Z 2 可以使用以下代码创建 df spark createDataFrame X 3 Y 1 Z 2 letter rpt 假设我想重复每行列中指定的次数rpt 就像这样questio
Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

我在跑蜂巢2 1 1 Ubuntu 16 04 上的 hadoop 2 7 3 根据Hive on Spark 入门 https cwiki apache org confluence display Hive Hive on Spark
在 Spark-submit 上的 _find_and_load 中获取文件“”，第 991 行

我目前使用的是Python 3 7 9 spark spark 2 4 6 bin hadoop2 6 在这个项目 venv 中我的设置为 kafka python 2 0 2 pip 21 2 4 py4j 0 10 9 pyspark
Scala 和 Spark：Windows 上的 Dataframe.write._

有人设法使用 Spark 写入文件尤其是 CSV 吗数据框 http spark apache org docs latest api scala index html org apache spark sql Dataset在 Win
Spark 中的广播 Annoy 对象（对于最近邻居）？

由于 Spark 的 mllib 没有最近邻居功能我正在尝试使用Annoy https github com spotify annoy为近似最近邻我尝试广播 Annoy 对象并将其传递给工人然而它并没有按预期运行下面是可重复性的
Spark 按列重新分区，每列动态分区数

如何根据列中的项目数对 DataFrame 进行分区假设我们有一个包含 100 人的 DataFrame 列是first name and country 我们希望为一个国家地区的每 10 个人创建一个分区如果我们的数据集包含 80
如何使用列的平均值将列添加到 DataFrame

有没有更好的办法 val mean df select avg date first getDouble 0 df withColumn mean lit mean 我认为避免采取行动是值得的可以使用以下方法避免额外的操作broadcas
Python Spark DataFrame：用 SparseVector 替换 null

在 Spark 中我有以下名为 df 的数据框其中包含一些空条目 id features1 features2 185 5 0 1 4 0 1 0 null 220 5 0 2 3 0 1 0 10 1 2 6 0 1 225 null
将 Spark 数据框中的时间戳转换为日期

我见过这里如何将DataFrame中的时间戳转换为日期格式 https stackoverflow com questions 40656001 how to convert timestamp to date format in da
Spark：替换嵌套列中的空值

我想更换所有n a以下数据框中的值unknown 它可以是scalar or complex nested column 如果它是一个StructField column我可以循环遍历列并替换n a using WithColumn 但我希
列对象不可调用 Spark

我尝试安装 Spark 并运行教程中给出的命令但出现以下错误 https spark apache org docs latest quick start html https spark apache org docs latest q
更改 Spark SQL 中的 Null 顺序

我需要能够按升序和降序对列进行排序并且还允许空值位于第一个或空值位于最后一个使用 RDD 我可以将 sortByKey 方法与自定义比较器结合使用我想知道是否有使用 Dataset API 的相应方法我了解如何将 desc asc
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储

随机推荐

React setState 不更新状态

所以我有这个 let total newDealersDeckTotal reduce function a b return a b 0 console log total tittal outputs correct total set
如何增加 Google Cloud Run 中的内存限制？

我正在使用 Cloud Run Cloud Firestore 构建一个简单的基于 Flask 的应用程序有一种方法会带来大量数据并且日志显示此错误 Memory limit of 244M exceeded with 248M use
为什么 Python 装饰器不能跨定义链接？

为什么以下两个脚本不等效摘自另一个问题了解 Python 装饰器 https stackoverflow com questions 739654 understanding python decorators def makebold
在Webpack中构建dist文件夹后，如何将bundle.js和css文件移动到statics文件夹中？

当我运行我的npm run build or npm run build dev 它在根目录中创建index html manage2 bundle js 和manage2 css 文件我需要将这些文件移动到静态目录中因此下面生成的i
有没有一种简单的方法可以在 Google 云中的项目之间克隆 SQL 实例？

我想知道是否存在一种简单的方法可以在 Google Cloud 中的项目之间克隆 sql 实例我知道我可以将数据导出到存储桶请参阅img 1 但我发现这有点麻烦如果有人有一个简单的方法来做到这一点我们将不胜感激没有快速方法可以
Pandas：合并数据框而不创建新列

我有 2 个具有相同列的数据框 df1 pd DataFrame Abe 1 True Ben 2 True Charlie 3 True columns Name Number Other df2 pd DataFrame Derek 4
使用 Python 加载 SQL_VARIANT 数据类型时出错

我正在使用 Python 2 7 和 SQLAlchemy 0 7 8 来查询我没有创建的数据库我在查询包含以下内容的表时遇到问题SQL VARIANT数据类型我收到错误 sqlalchemy exc DBAPIError 错误 ODB
Flutter如何检测设备语言？

我有一个问题如何检测设备语言并据此在应用程序最初启动时给出正确的语言如果可能请提供带有代码的示例 Calling Localizations localeOf context languageCode应该返回你的语言代码如果未提供
如果用户在浏览器中禁用了 JavaScript，如何使用不同的 CSS 样式表？

我正在为某人开发一个网站我使用的 CSS 样式需要 JavaScript 用于小屏幕上下拉导航栏的按钮如果用户启用了 JavaScript 我如何使用一种样式表如果用户禁用 JavaScript 我如何使用另一种样式表有两种方法可以
如何以良好的方式使用 SQL NULL 值和 JSON？

Go 类型如Int64 and String不能存储空值所以我发现我可以使用sql NullInt64 https golang org pkg database sql NullInt64 and sql NullString http
在发布模式下未针对异步方法调用 IDisposable.Dispose()

我在 VS2015 1 上使用 NET 4 6 1 在 VB NET 14 中编写了以下 WPF 示例应用程序 Class MainWindow Public Sub New InitializeComponent End Sub Priv
除法结果不正确

我有一个时间计算器多年来一直运行良好然而一直困扰我的一件事是如果使用小数秒结果将成为浮点错误的牺牲品所以我最近改用这个 BigDecimal 库 https github com dtrebbien BigDecimal
使用 FCM 向订阅主题的所有设备（批量）发送推送通知时出现扩展问题

我已将所有设备订阅了一个主题即约100万用户当设备收到通知时会有一个调用 REST API 的操作按钮现在如果我向订阅特定主题的所有设备触发通知所有用户都会收到通知并点击操作按钮该按钮将调用其余 API 来获取数据太多的 R
从 ClearCase 快照中删除文件的“正确”方法是什么？

当我从快照视图中删除文件时下次在 ClearCase Explorer 中查看快照时它会显示已签出但已删除的图标当我在快照上运行查找修改的文件时不会显示已删除的文件在快照上运行更新视图会导致 ClearCase 将丢失的
如何将表从转储恢复到数据库？

我使用 pg dump 创建表转储 pg dump h server1 U postgres t np points gisurfo gt D np point sql 当我进入 psql 并说 f D np point sql 但获取标准
从多个线程中选择同一个文件描述符

如果我打电话会发生什么select来自多个线程的同一个打开的文件描述符这有记录在某处吗根据POSIX 2008select http pubs opengroup org onlinepubs 9699919799 functions
复选框和单选按钮

复选框是否有权像单选按钮一样工作我正在开发一个测验应用程序其中选项具有单选按钮的行为并且选项的图标像复选框一样我是否可以将复选框分组为我们将单选按钮分组如果您想要看起来像复选框的单选按钮将RadioButton的样式设置为 an
GNU Flex 库 libfl 提供什么？

我可以从 flex 和 bison 生成的文件编译一个程序 cc lex yy c program tab c o output 也由 cc lex yy c program tab c lfl o output 它们都运行顺利没有任何问
通过 GenericEntity> 在 RESTful Response 对象中使用 Java 泛型模板类型

我有一个通用的 JAX RS 资源类并且我已经定义了一个通用的findAll method public abstract class GenericDataResource
为什么Complete输出模式需要聚合？

我在 Apache Spark 2 2 中使用最新的结构化流处理并遇到以下异常 org apache spark sql AnalysisException 完整输出模式不当流上没有流聚合时支持数据框数据集为什么完整输出模式需要流式

为什么Complete输出模式需要聚合？

为什么Complete输出模式需要聚合？ 的相关文章

随机推荐

热门标签

为什么Complete输出模式需要聚合？的相关文章