为什么 Spark 中聚集和折叠两个不同的 API？

2023-12-31

当使用Scala标准库时，我可以这样做：

scala> val scalaList = List(1,2,3)
scalaList: List[Int] = List(1, 2, 3)

scala> scalaList.foldLeft(0)((acc,n)=>acc+n)
res0: Int = 6

从多个 Int 中生成一个 Int。

我可以做这样的事情：

scala> scalaList.foldLeft("")((acc,n)=>acc+n.toString)
res1: String = 123

从许多 Int 中生成一个 String。

因此，foldLeft 可以是同构的，也可以是异构的，无论我们想要哪一种，它都在一个 API 中。

在 Spark 中，如果我想要从多个 Int 中选择一个 Int，我可以这样做：

scala> val rdd = sc.parallelize(List(1,2,3))
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[1] at parallelize at <console>:12
scala> rdd.fold(0)((acc,n)=>acc+n)
res1: Int = 6

Fold API 与 FoldLeft 类似，但它只是同构的，RDD[Int] 只能产生带有 Fold 的 Int。

Spark 中也有一个聚合 API：

scala> rdd.aggregate("")((acc,n)=>acc+n.toString, (s1,s2)=>s1+s2)
res11: String = 132

它是异构的，一个 RDD[Int] 现在可以生成一个 String。

那么，为什么折叠和聚合在 Spark 中作为两个不同的 API 实现呢？

为什么它们不像 FoldLeft 那样设计，既可以是同质的，也可以是异质的？

（我对 Spark 很陌生，如果这是一个愚蠢的问题，请原谅。）

fold可以更有效地实现，因为它不依赖于固定的评估顺序。这样每个集群节点就可以fold并行地拥有自己的块，然后是一个小的整体fold在最后。而与foldLeft每个元素都必须按顺序折叠，不能并行执行任何操作。

（为了方便起见，为常见情况提供一个更简单的 API 也很好。标准库有reduce也foldLeft为此原因）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

Aggregate

apachespark

Heterogeneous

homogenoustransformation

为什么 Spark 中聚集和折叠两个不同的 API？的相关文章

使用 pyspark awsglue 时显示 DataFrame

如何使用 awsglue 的 job etl 显示 DataFrame 我尝试了下面的代码但没有显示任何内容 df show code datasource0 glueContext create dynamic frame from c
xsbt 插件 1.0.0-M7 和 scalatra

我尝试在我的 scalatra 项目中将 xsbt 插件升级到 1 0 0 M7 但 scalatra 似乎与此版本不兼容当我尝试重新加载项目时出现以下错误我尝试过 scalatra 2 3 0 版本问候德斯 java lang
读取不同文件夹深度的多个 csv 文件

我想递归地将给定文件夹中的所有 csv 文件读入 Spark SQLDataFrame如果可能的话使用单一路径我的文件夹结构如下所示我想包含具有一个路径的所有文件 resources first csv resources subfo
比较 javascript 元素和 scala 变量的 Play 框架 Twirl 模板

如下面的代码示例所示我想比较 scala 辅助元素内的 javascript 元素然而即使存在元素 abcde 它也始终返回 false 除了使用标签之外如何获取 scala 辅助元素内的 javascript 值 appSeq S
Spark 数据帧分组、排序和选择一组列的顶部行

我正在使用 Spark 1 5 0 我有一个包含以下列的 Spark 数据框 user id description fName weight 我想做的是为每个用户选择前 10 行和后 10 行基于列权重的值数据类型为 Double 如
Spark SQL/Hive 查询通过 Join 永远持续下去

所以我正在做一些应该很简单的事情但显然它不在 Spark SQL 中如果我在 MySQL 中运行以下查询查询将在不到一秒的时间内完成 SELECT ua address id FROM user u inner join user a
Scala 2.8 中 <:<、<%< 和 =:= 的含义是什么？它们的文档在哪里？

我可以在 API 文档中看到Predef https scala lang org files archive api 2 8 2 scala Predef 24 html它们是通用函数类型 From gt To 的子类但仅此而已嗯什么
为什么 Spark 退出并显示 exitCode: 16？

我将 Spark 2 0 0 与 Hadoop 2 7 一起使用并使用纱线集群模式每次我都会收到以下错误 17 01 04 11 18 04 INFO spark SparkContext Successfully stopped S
在 Scala 中反转地图的优雅方法

目前正在学习Scala 需要反转Map 来进行一些反转值 gt 键查找我一直在寻找一种简单的方法来做到这一点但只想到了 Map origMap map kvp gt kvp 2 gt kvp 1 有人有更优雅的方法吗假设值是唯一的则
Map 和 Set 的实际类（不是抽象类，也不是特征类）是什么？

在 Scala 中映射和集合文字可以通过以下方式创建 val m Map 1 gt a 以及引用的类型m字面意思都是Map Int String 然而 scala文档表明Map实际上是一个特征具有需要实现才能实例化的抽象成员 scala
为什么我在 Mac 上看到“java.lang.reflect.InaccessibleObjectException: Unable to make private java.nio.DirectByteBuffer(long,int)accessibl

我已经在工作中愉快地构建代码好几天了但突然我的一个项目不是全部失败并出现此错误消息看看下面的答案吧我是如何修复它的起初我用谷歌搜索看到很多有这个问题的人正在使用 Java 16 但我认为错误我正在使用 Java 11 因为
在 AKKA 中，对主管调用 shutdown 是否会停止其监督的所有参与者？

假设我有一位主管连接了 2 位演员当我的应用程序关闭时我想优雅地关闭这些参与者调用supervisor shutdown 是否会停止所有参与者还是我仍然需要手动停止我的参与者 gracias 阻止主管 https github co
如何在scala中生成n-gram？

我正在尝试在 scala 中编写基于 n gram 的分离新闻算法如何为大文件生成 n gram 例如对于包含蜜蜂是蜜蜂中的蜜蜂的文件首先它必须选择一个随机的 n 元语法例如蜜蜂然后它必须寻找以 n 1 个单词开头的 n 元
Spark Dataframe/Parquet 中的枚举等效项

我有一个包含数亿行的表我想将其存储在 Spark 的数据帧中并作为 parquet 文件持久保存到磁盘我的 Parquet 文件的大小现在超过 2TB 我想确保我已经对此进行了优化这些列中很大一部分是字符串值它们可能很长但值通常也
如何将 JVM 选项传递给 SBT 以在运行应用程序或测试用例时使用？

我想在运行我的应用程序或通过 SBT 对应用程序进行测试时指定 JVM 选项具体来说我需要能够为 JVM 提供 Djava security policy 参数以便加载我的策略并用于测试我怎样才能用 SBT 做到这一点 With x
通过 SSH 的 sbt (Scala) 结果找不到命令，但如果我自己这样做就可以工作

所以我正在尝试做一些涉及跑步的事情sbt通过 SSH 命令这就是我正在尝试的 ssh my username
如何通过数据框中数组列的索引计算平均值

我正在使用 Spark 2 2 我有一个关于合作的基本问题ArrayType 我没有找到可以使用的内置聚合函数 Given a DataFrame有一个柱子id和一列values of ArrayType 我们想按 id 分组然后按索引计
这种奇怪的 Scala 内存泄漏的原因是什么？ [复制]

这个问题在这里已经有答案了即使有 7G 的堆空间这也会耗尽内存 import scala collection mutable Set class Foo val anEmptySet Set Int Set def bar ints
Spark DataFrame 不尊重架构并将所有内容视为字符串

我面临着一个多年来一直无法克服的问题我使用的是 Spark 1 4 和 Scala 2 10 我现在无法升级大型分布式基础设施我有一个包含几百列的文件其中只有 2 列是字符串其余都是长列我想将此数据转换为标签特征数据框我已经
我们可以在 UDF 中使用关键字参数吗

我的问题是我们可以像下面那样在 Pyspark 中使用关键字参数和 UDF 吗 conv 方法有一个关键字参数 conv type 默认情况下它被分配给特定类型的格式化程序但是我想在某些地方指定不同的格式由于关键字参数这在 udf 中

随机推荐

构建 C++ 应用程序时 OSX 系统包含文件的默认路径是什么？

我正在命令行构建一个 C 应用程序使用make带有开源库 Xerces 2 8 其中一个文件包括 OSX 系统文件 include
如何禁用继承的 css 样式？

因此我使用以下方法创建一个带有圆角的容器 div rounded background CFFEB6 url tr gif no repeat top right div rounded div background url br gif
复制整个命名空间？

我想复制整个命名空间同时用动态构造的版本替换一些函数换句话说从命名空间开始 import tensorflow as tf 我想复制一份用我自己的版本替换一些功能然后更新 globals 所有符号都保留在新的命名空间内这需要按照
如何运行maven项目？

我创建了名为的java项目一个报告我如何将整个项目转移到 Maven 一旦我转移到 Maven 如何在命令提示符下运行目前我有依赖性的问题所以我打算转移这个项目谁能帮助我一步一步的过程 C Jars gt javac cp C Pr
如何将 jQuery UI 图标添加到动态生成的按钮？

下载 jQuery UI 时您将获得所选主题的样式表以及几个包含图标的图像文件我已经弄清楚如何将图标添加到单个
了解内部/外部模块和导入/需要 Typescript 0.8.2

有许多 StackOverflow 问题涉及这个主题但要么与我正在尝试的不太一样要么是针对以前版本的 TypeScript 我正在开发一个相当大的 TypeScript 项目并且将给定的模块分解为多个文件而不是每个类一个在 0 8
nHibernate 3.0.0.4000 在查询中以不同方式处理布尔值？

我刚刚将 nHibernate 从版本 3 0 0 1002 更新到 3 0 0 4000 一旦我这样做了我的许多查询就开始失败其中一个查询是这样的 var items from b in session Query
显示带有照片的相册 (PHP)

首先这确实不是 CodeIgniter 特有的我很难理解一个想法所以任何了解 PHP SQL 或任何我的问题的人都可以加入我有两张桌子照片和相册 Album columns ID TITLE USER ID CREATED
Java Tomcat LDAP 身份验证

由于我使用 Tomcat6 作为 servlet 容器运行 Java 因此我发现使用Tomcat JNDIRealm 功能 http tomcat apache org tomcat 6 0 doc realm howto html JND
使用 docker-compose.yml 中的 Linux 容器在 Windows 主机上挂载 Docker 卷

我刚刚开始使用 Docker 和 Docker Compose 功能来设置我的 Web 应用程序服务我正在使用 Linux 容器在 Windows 主机上运行 Docker 我得到了一个名为 db volume 的命名卷用于 Postg
在一系列文本框中显示 LINQ 列表值？

我正在创建一个预订系统客户可以在其中输入预订 ID 并查看所有其他参加的客人我需要帮助在一系列文本框中显示 LINQ 列表中的值我们将不胜感激 using System using System Collections Generic
如何在 Bootstrap 3 Glyphicons 中传递数字

是否有任何选项或解决方案可以传递 Numbers is Bootstrap 3 Glyphicons 就像 Thanks Bootstrap 3 Glyphicons 是否有任何选项或解决方案来传递 Numbers 简而言之不这里有所有
将多个 PDF 合并为一个 PDF

我的代码有一些问题我正在尝试循环浏览包含许多 PDF 的云端硬盘文件夹然后将它们合并到一个文件中当我使用我的代码时它只是为 Drive 文件夹中的最后一个 PDF 创建一个 PDF 而不是按预期将它们全部合并在一起 function
使用 R 下载 gzip 数据文件、提取和导入数据

后续行动这个问题 https stackoverflow com questions 3053833 using r to download zipped data file extract and import data 如何使用 R 下
通过 lambda 从另一个集合中排除集合

这是我的类型 public class myType public int Id get set public string name get set 这种类型有 2 个集合 List
在 Perl 中，如何访问另一个包中定义的标量？

我似乎被困在尝试访问另一个包中定义的标量并将示例缩小为一个简单的测试用例我可以在其中重现问题我希望能够使用我们的机制访问对 Example 包中定义的列表的引用但是 Dumper 显示该变量在 example pl 中始终未定义 E
从控制器返回 razor 解析的 Javascript 作为 ViewResult

我已经成功创建了一个 mvc razor Web 应用程序它返回已由 razor 解析的 css 文件每次有背景图像时我都会有一个 razor 片段它将 URL 前缀写入图像文件名 CSS 现在看起来像这样 body backgro
自定义后退按钮标题并保留滑动返回手势

问题我想在弹出的视图控制器中自定义导航后退按钮标题例如 Whatsapp 但是如果您使用在弹出视图控制器中分配新的 backBarButtonItem 将禁用向后滑动手势 self navigationController inte
Active Directory 跨域 - 使用PrincipalContext 的组成员

我试图通过使用 C 中的 DirectoryServices AccouneManagement 命名空间类来获取给定活动目录组的成员如果我为特定域指定了主体上下文对象构造函数那么每当我访问来自其他域的组中的成员时我都会遇到以下错误
为什么 Spark 中聚集和折叠两个不同的 API？

当使用Scala标准库时我可以这样做 scala gt val scalaList List 1 2 3 scalaList List Int List 1 2 3 scala gt scalaList foldLeft 0 acc n

为什么 Spark 中聚集和折叠两个不同的 API？

为什么 Spark 中聚集和折叠两个不同的 API？ 的相关文章

随机推荐

热门标签

为什么 Spark 中聚集和折叠两个不同的 API？的相关文章