Spark：Aggregator和UDAF有什么区别？

2024-05-06

在Spark的文档中，Aggregator：

抽象类聚合器[-IN, BUF, OUT] 扩展可序列化

用户定义聚合的基类，可以是在数据集操作中用于获取组中的所有元素并将它们减少到单个值。

用户定义的聚合函数是：

抽象类 UserDefinedAggregateFunction 扩展可序列化

实现用户定义聚合函数的基类（UDAF）。

根据数据集聚合器 - Databricks http://docs.cloud.databricks.com/docs/spark/1.6/examples/Dataset%20Aggregator.html，“聚合器类似于 UDAF，但接口是用 JVM 对象而不是行来表示的。”

看起来这两个类很相似，除了接口中的类型之外，还有什么区别呢？

类似的问题是：UDAF 与 Spark 中聚合器的性能对比 https://stackoverflow.com/questions/45356452/performance-of-udaf-versus-aggregator-in-spark

除了类型之外，一个根本的区别是外部接口：

Aggregator需要一个完整的Row（它适用于“强”类型 API）。
UserDefinedAggregationFunction需要一组Columns.

这使得Aggregator虽然整体 API 对用户更加友好，但灵活性较差。

处理状态也有区别：

Aggregator是有状态的。取决于其缓冲区字段的可变内部状态。
UserDefinedAggregateFunction是无国籍的。缓冲区的状态是外部的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

apachesparksql

Aggregate

Spark：Aggregator和UDAF有什么区别？的相关文章

Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
collect_list() 是否保持行的相对顺序？

想象一下我有以下 DataFrame df id featureName featureValue id1 a 3 id1 b 4 id2 a 2 id2 c 5 id3 d 9 想象一下我运行 df groupBy id agg coll
从 Spark 访问 Hdfs 会出现令牌缓存错误 Can't get Master Kerberosprincipal for use as renewer

我正在尝试运行测试 Spark 脚本以便将 Spark 连接到 hadoop 脚本如下 from pyspark import SparkContext sc SparkContext local Simple App file sc t
四舍五入数据框中的所有列 - 两位小数 pyspark

我使用此命令将数据框中的所有列四舍五入到小数点后两位 data data withColumn columnName1 func round data columnName1 2 我不知道如何通过一个命令对所有数据框进行四舍五入不是每一列
Spark s3 写入（s3 与 s3a 连接器）

我正在从事一项在 EMR 上运行的作业它在 s3 上保存了数千个分区分区为年月日我有过去 50 年的数据现在当 Spark 写入 10000 个分区时使用以下命令大约需要 1 小时s3a联系它非常慢 df repartit
Spark shuffle 溢出指标

在 Spark 2 3 集群上运行作业时我在 Spark WebUI 中注意到某些任务发生了溢出据我所知在reduce端 reducer获取所需的分区随机读取然后使用执行器的执行内存执行reduce计算由于没有足够的执行内存一
使用notebook时将jar添加到pyspark

我正在尝试将 mongodb hadoop 与 Spark 集成但不知道如何使 IPython 笔记本可以访问这些 jar 这是我想做的 set up parameters for reading from MongoDB via Had
使用 Spark sql DataFrame 删除功能

我需要为我的 Spark 应用程序从 postgres 数据库加载删除特定记录为了加载我使用以下格式的 Spark 数据框 sqlContext read format jdbc options Map url gt postgres
无法使用 Spark 结构化流在 Parquet 文件中写入数据

我有一个 Spark 结构化流 val df spark readStream format kafka option kafka bootstrap servers localhost 9092 option startingOffset
如何使用 Spark-submit 命令获取提交到 Spark 集群的作业的应用程序 ID/作业 ID？

我正在使用 Spark submit 命令提交 Apache Spark 作业我想检索使用 Spark submit 命令提交的作业的应用程序 ID 或作业 ID 推荐的方式应该是什么可以解析 Spark submit 命令的输出以获取
无法启动 Spark-Shell

我使用的是 Spark 1 4 1 我可以毫无问题地使用spark submit 但当我跑的时候 spark bin spark shell 我收到以下错误我已经配置了SPARK HOME and JAVA HOME 不过 Spark 1
Spark如何选择节点来运行执行器？（spark on YARN）

Spark如何选择节点来运行执行器 spark on YARN 我们使用 Spark on Yarn 模式集群有 120 个节点昨天一个 Spark 作业创建了 200 个执行程序而节点 1 上有 11 个执行程序 Node2上有1
将类型安全配置conf文件传递给DataProcSparkOperator

我正在使用 Google dataproc 提交 Spark 作业并使用 google Cloud Composer 来安排它们不幸的是我面临着困难我依靠 conf文件类型安全配置文件将参数传递给我的 Spark 作业我正在将
Spark 与 Webhdfs/httpfs

我想通过 httpfs 或 Webhdfs 将文件从 HDFS 读入 Spark 类似的东西 sc textFile webhdfs myhost 14000 webhdfs v1 path to file txt 或者理想情况下 sc
如何在 Pyspark 中使用滑动窗口对时间序列数据进行数据转换

我正在尝试根据时间序列数据的滑动窗口提取特征在Scala中似乎有一个sliding函数基于这个帖子 https stackoverflow com a 28863132 3089523 and 文档 http spark apache
在 Databricks / Spark 中的 SQL 中为变量分配动态值

我觉得我一定在这里遗漏了一些明显的东西但我似乎无法在 Spark SQL 中动态设置变量值假设我有两张桌子 tableSrc and tableBuilder 我正在创建tableDest 我一直在尝试变体 SET myVar FLOA
使用列的长度过滤 DataFrame

我想过滤一个DataFrame使用与列长度相关的条件这个问题可能很简单但我在SO中没有找到任何相关问题更具体地说我有一个DataFrame只有一个Column哪一个ArrayType StringType 我想过滤DataFrame
Apache Spark 和 scikit_learn 之间的 KMeans 结果不一致

我正在使用 PySpark 对数据集执行聚类为了找到簇的数量我对一系列值 2 20 进行了聚类并找到了wsse 簇内平方和每个值的值k 在这里我发现了一些不寻常的东西根据我的理解当你增加集群数量时 wsse单调递减但我得到的结
如何防止 SQL Server 在导入数据时去除前导零

A data file被导入到SQL Server桌子数据文件中的一列是文本数据类型该列中的值只能是整数 SQL Server 数据库中目标表中的相应列的类型为varchar 100 但在数据导入后 SQL Server 会存储以下值
在 Spark 2.4 上的 pyspark.sql.functions.max().over(window) 上使用 .where() 会引发 Java 异常

我关注了一个帖子堆栈溢出 https stackoverflow com questions 48829993 groupby column and filter rows with maximum value in pyspark 488

随机推荐

检测“文件下载”弹出窗口何时关闭

我有一个网页用 JSF 制作其中一些链接允许用户获取 PDF 文件当用户点击这样的链接时会显示一个等待弹出窗口它是一个模式面板因为 PDF 的生成可能很长并且一旦创建文件 IE 就会显示文件下载弹出窗口建议打开保存
从 GetLastError() 函数返回的错误代码中获取文本

我需要获取从 GetLastError 函数获得的错误代码的文本我看到了一些示例但我想要一个获取代码并返回字符串的函数谢谢大家我猜你想要这样的东西 DWORD dwLastError GetLastError TCHAR lpBuf
RxJava - 链接请求和更新 UI

我遇到的问题是这样的我需要向服务器执行几个请求下一个请求取决于前一个请求的结果它们看起来像这样缩写 Observable
如何调试（最好在 IDE 中）MSBuild 脚本？

我们非常广泛地使用 MSBuild 作为我们持续集成过程的一部分虽然它非常强大我们几乎可以在其中完成所有构建测试和部署利用一些自定义任务我们发现使用标签对其进行调试是一种痛苦并且不能总是为我们提供足够的信息我发现 http w
调用事件，h(args) 与 EventName?.Invoke()

我总是这样调用事件 void onSomeEvent string someArg var h this EventName if h null h this new MyEventArgs someArg 今天 VS 2015 告诉我这可
为什么 getSession() 在短时间内间隔的后续请求中不返回相同的会话？

我正在发送一个 getJSON HTTP GET 请求两次使用不同的数据一次又一次假设我们有 request1 和 request2 我可以在 FF 和 Chrome 的开发者工具中看到我有相同的cookie JSESSIONID F
使用 leaflet.js 在点周围添加设定大小的正方形多边形

有点奇怪希望有人能帮忙在传单中一旦用户输入了纬度经度并向地图添加了一个点我希望能够在该点周围添加一个 10 公里的正方形我尝试四处寻找计算方法来找到 x 公里外的正方形角点但没有挖出任何东西但肯定有更简单的方法有人有想法吗
如何在 Django 中创建多选框？

我正在尝试创建多选框字段来自姜戈选择 2 https github com applegrew django select2库如下图所示我使用了下一个代码但它返回简单的选择多个小部件我想我忘了补充一些东西我的错误在哪里有人可以告诉
使用 stringstreams 将字符串转换为 __uint128_t

我正在尝试从字符串中提取不同类型的数据 void readHeader char buf BUFFSIZE std istringstream hdr buf uint128 t id client hdr gt gt id client
C++：初始化结构体并设置函数指针

我正在尝试使用函数指针初始化结构但是除非使用全局函数完成否则我很难这样做以下代码有效 float tester float v return 2 0f v struct MyClass Example typedef float My
为什么 Visual Studio 2019 不会运行我的单元测试？

我在 VS2019 中看到 NUnit 测试的一些非常奇怪的行为而相同的解决方案在 VS2017 中运行良好我的脑海里有几个 NUnit 测试项目在安装了 NUnit Runner 扩展的 VS2017 中我可以在测试资源管理器
使用 java 执行 Matlab 函数

我正在编写一个应用程序它使用 matlab 进行图像处理然后使用 Java 接口显示结果由于某些原因我必须同时使用 Java 和 Matlab 如何在java中使用matlab函数如何创建和访问界面 MATLAB控制 http m
有没有办法通过 Outlook API 获取建议的联系人？

我目前正在开发一个应用程序来获取我的 Microsoft 帐户中的联系人问题是与 Google 不同当我向新联系人发送电子邮件或从新联系人接收电子邮件时该电子邮件不会复制到我的联系人中因此我无法通过该电子邮件https out
如何修复 Visual Studio Code 终端中的“分段错误”错误？

在 Windows 10 上我安装了 Visual Studio Code 当我打开终端 Git Bash 并输入less watch compiler 我收到错误分段故障但是如果我转到 Git Bash 终端本身在 Visual
重新创建 Siri 按钮发光动画

有没有办法复制 Siri 按钮发光动画它看起来绝对华丽但我现在不知道如何开始是否有在线预格式化的旋转PNG 或者是用CoreAnimation完成的我相信 Siri 动画是用 CAEmitterLayer 和 CAEmitterCe
渲染脚本渲染在Android上比OpenGL渲染慢很多

背景我想根据Android相机应用程序的代码添加实时滤镜但Android相机应用程序的架构是基于OpenGL ES 1 x 我需要使用着色器来自定义我们的过滤器实现然而将相机应用程序更新到OpenGL ES 2 0太困难了然后我必
查询不可更新

我正在尝试使用 BE SQL Server 2012 Express 中的记录更新本地 Access 2007 表我的步骤在这里 SQL Server中存在带有4个参数的存储过程来获取所需的记录 Access VBA中有调用SP并进行临时
BitBucket+Jenkins：仅在特定分支更改时触发构建

以下是该问题的据称解决方案尽管它看起来确实是一种解决方法而不是最终的解决方案有没有一种方法通过作业配置或 bitbucket 挂钩配置我可以将作业设置为仅在推送到特定分支时运行构建是否可以仅从一个特定分支触发 Jenkins h
PySide2/QML 填充 Gridview 模型/委托并为其设置动画

我是 QML 的新手正在寻求以下几点帮助如何基于 TextField 输入如 Regex 通过 PySide2 过滤 Gridview 模型中的 QAbstractListModel 数据标题如何在鼠标悬停时为 Gridview
Spark：Aggregator和UDAF有什么区别？

在Spark的文档中 Aggregator 抽象类聚合器 IN BUF OUT 扩展可序列化用户定义聚合的基类可以是在数据集操作中用于获取组中的所有元素并将它们减少到单个值用户定义的聚合函数是抽象类 UserDefinedAgg

Spark：Aggregator和UDAF有什么区别？

Spark：Aggregator和UDAF有什么区别？ 的相关文章

随机推荐

热门标签

Spark：Aggregator和UDAF有什么区别？的相关文章