groupByKey 是否比 reduceByKey 更受青睐

2023-11-23

我总是用reduceByKey当我需要对 RDD 中的数据进行分组时，因为它在打乱数据之前执行映射端缩减，这通常意味着更少的数据被打乱，从而获得更好的性能。即使当map端reduce函数收集了所有值并且没有实际减少数据量时，我仍然使用reduceByKey，因为我假设性能reduceByKey永远不会比groupByKey。但是，我想知道这个假设是否正确，或者是否确实存在这样的情况groupByKey应该优先？？

我相信这个问题还有其他方面被忽视了climbage and eliasah:

代码可读性
代码可维护性
代码库大小

如果操作不会减少数据量，则它必须以一种或另一种语义上等效的方式GroupByKey。假设我们有RDD[(Int,String)]:

import scala.util.Random
Random.setSeed(1)

def randomString = Random.alphanumeric.take(Random.nextInt(10)).mkString("")

val rdd = sc.parallelize((1 to 20).map(_ => (Random.nextInt(5), randomString)))

我们想要连接给定键的所有字符串。和groupByKey这很简单：

rdd.groupByKey.mapValues(_.mkString(""))

天真的解决方案reduceByKey看起来像这样：

rdd.reduceByKey(_ + _)

它很短并且可以说很容易理解，但存在两个问题：

效率极低，因为它创建了一个新的String每次都对象*
表明您执行的操作比实际情况要便宜，特别是如果您仅分析 DAG 或调试字符串

为了解决第一个问题，我们需要一个可变的数据结构：

import scala.collection.mutable.StringBuilder

rdd.combineByKey[StringBuilder](
    (s: String) => new StringBuilder(s),
    (sb: StringBuilder, s: String) => sb ++= s,
    (sb1: StringBuilder, sb2: StringBuilder) => sb1.append(sb2)
).mapValues(_.toString)

它仍然表明其他确实正在发生的事情并且非常冗长，特别是如果在脚本中重复多次的话。您当然可以提取匿名函数

val createStringCombiner = (s: String) => new StringBuilder(s)
val mergeStringValue = (sb: StringBuilder, s: String) => sb ++= s
val mergeStringCombiners = (sb1: StringBuilder, sb2: StringBuilder) => 
  sb1.append(sb2)

rdd.combineByKey(createStringCombiner, mergeStringValue, mergeStringCombiners)

但归根结底，这仍然意味着需要付出额外的努力来理解这段代码，增加复杂性并且没有真正的附加价值。我发现特别麻烦的一件事是显式包含可变数据结构。即使 Spark 能够处理几乎所有的复杂性，这也意味着我们不再拥有优雅的、引用透明的代码。

我的观点是，如果你真的通过各种手段减少数据量，请使用reduceByKey。否则，你的代码会变得更难编写、更难分析，而且得不到任何回报。

Note:

这个答案主要针对ScalaRDDAPI。当前的 Python 实现与其 JVM 对应物有很大不同，并且包括比 naive 提供显着优势的优化reduceByKey实施情况groupBy类似的操作。

For DatasetAPI见数据帧/数据集分组按行为/优化.

* See Scala 与 Python 的 Spark 性能比较举一个有说服力的例子

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

RDD

groupByKey 是否比 reduceByKey 更受青睐的相关文章

如何将 Spark DataFrame 以 csv 格式保存在磁盘上？

例如这样的结果 df filter project en select title count groupBy title sum 将返回一个数组如何将 Spark DataFrame 作为 csv 文件保存在磁盘上 Apache Sp
缩放数据框的每一列

我正在尝试缩放数据框的每一列首先我将每一列转换为向量然后使用 ml MinMax Scaler 除了简单地重复它之外是否有更好更优雅的方法将相同的函数应用于每一列 import org apache spark ml linalg
使用spark-sql从oracle加载数据时如何增加默认精度和小数位数

尝试从 oracle 表加载数据其中我有几列保存浮点值有时它最多保存 DecimalType 40 20 即点后 20 位数字目前当我使用加载其列时 var local ora df DataFrameReader ora df l
pyspark.sql.functions.window 函数的“startTime”参数和 window.start 有何作用？

示例如下 df spark createDataFrame 1 2017 05 15 23 12 26 2 5 1 2017 05 09 15 26 58 3 5 1 2017 05 18 15 26 58 3 6 2 2017 05 15
运行pyspark时没有这样的文件或目录错误

我安装了 Spark 但是当我运行时pyspark在终端上我得到 usr local Cellar apache spark 2 4 5 1 libexec bin pyspark line 24 Users miguel spark 2
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
由于 UTFDataFormatException 导致 Spark 中的任务无法序列化：编码字符串太长

我在 Yarn 上运行 Spark 应用程序时遇到一些问题我有非常广泛的集成测试运行时没有任何问题但是当我在 YARN 上运行应用程序时它将抛出以下错误 17 01 06 11 22 23 ERROR yarn Applicatio
Spark Shuffle 写入超慢

为什么对于 1 6MB shuffle 写入和 2 4MB 输入 spark shuffle 阶段如此缓慢为什么 shuffle 写入仅发生在一个执行器上我正在运行一个 3 节点集群每个集群有 8 个核心火花用户界面 Code Ja
java.lang.ClassNotFoundException：找不到类 org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem

我是 Spark 和 Kubernetes 世界的新手我使用 docker image tool sh 实用程序使用与 Hadoop 3 2 捆绑在一起的官方 Spark 3 0 1 构建了 Spark docker 映像我还为 Jup
如何在 PySpark 中累计聚合一天内超过“1 小时”的窗口

我有一个如下所示的 Spark DataFrame group id event time XXXX 2017 10 25 14 47 02 717013 XXXX 2017 10 25 14 47 25 444979 XXXX 2017
Spark shell (spark 3.0.0) 添加包 confluence kafka 5.5.1 javax.ws.rs-api 问题

我本地的win10 WSL回到ubuntu 在ubuntu上我安装了spark3 0 0 confluence平台5 5 1 手动下载当我尝试运行spark shell或spark submit时下面是shell示例 spark sh
Spark 中的 RDD 和 Dataframe 有什么区别？ [复制]

这个问题在这里已经有答案了嗨我对 apache Spark 比较陌生我想了解 RDD 数据帧和数据集之间的区别例如我正在从 s3 存储桶中提取数据 df spark read parquet s3 output unattribu
Pyspark - 根据条件重置累积和列

我有以下数据框 id date reset cumsum 1001 2023 04 01 false 0 1001 2023 04 02 false 0 1001 2023 04 03 false 1 1001 2023 04 04 fal
将类型安全配置conf文件传递给DataProcSparkOperator

我正在使用 Google dataproc 提交 Spark 作业并使用 google Cloud Composer 来安排它们不幸的是我面临着困难我依靠 conf文件类型安全配置文件将参数传递给我的 Spark 作业我正在将
如何在cassandra中保存spark流数据

构建 sbt以下是build sbt文件中包含的内容 val sparkVersion 1 6 3 scalaVersion 2 10 5 resolvers Spark Packages Repo at https dl bintray
如何检查SparkContext是否已停止？

如何检测是否SparkContext http spark apache org docs latest programming guide html已经stopped https spark apache org docs latest
如何将多个 parquet 文件附加到 Pandas 中的一个数据帧

我正在使用 Spark 和 Pandas 解压缩 snappy parquet 文件我有 180 个文件我的 Jupyter 笔记本中有 7GB 数据根据我的理解我需要创建一个循环来获取所有文件用 Spark 解压缩它们并附加到
使用 PySpark 从 azure blob 存储读取 csv 文件

我正在尝试使用 Microsoft Azure 上的 PySpark HDInsight 集群来做一个机器学习项目要在我的集群上进行操作请使用 Jupyter 笔记本另外我的数据一个 csv 文件存储在 Azure Blob 存
从 pySpark 中的字典构建一行

我正在尝试在 pySpark 1 6 1 中动态构建一行然后将其构建到数据帧中总体思路是扩展结果describe例如包括偏斜和峰度这是我认为应该起作用的 from pyspark sql import Row row dict C0
使用列的长度过滤 DataFrame

我想过滤一个DataFrame使用与列长度相关的条件这个问题可能很简单但我在SO中没有找到任何相关问题更具体地说我有一个DataFrame只有一个Column哪一个ArrayType StringType 我想过滤DataFrame

随机推荐

文章中的交叉引用

该书册为方程图形表格和章节提供了很好的交叉引用选项 https bookdown org yihui bookdown cross references html 但是当我设置为输出 articles elsevier article
Springs @RequestParam 注解的内部工作原理

在 Spring 中如果我没记错的话以下两个语句是相同的 RequestParam type String type RequestParam String type spring如何知道 type 的变量名第二版我当时的印象是该
同一页面上的多个socket.io连接

我可以在客户端连接到同一 IP 和端口上的多个资源吗我有以下代码 var myIP 192 168 1 1 var myPort 8080 A io connect myIP myPort resource A socket io B i
戈多3.2.1。刷新查询时无法更改此状态。使用 call_deferred() 或 set_deferred() 来更改监控状态

在我的 2D 游戏中玩家能够摧毁箱子具有两种碰撞形状的物体当被摧毁时板条箱会产生也具有碰撞形状的物品但是当调用以下函数时 Godot控制台中会显示许多类似的错误 Code func on Crate item dropped co
Laravel 5.2 会话 flash 即使使用 Web 中间件也无法工作

我正在尝试使用会话来实现 Flash 消息传递但无法做到这一点在我的控制器中我有 public function store Request request session gt flash donald duck session gt
C 中的 +(+k--) 表达式

我在测试中看到这个问题我们必须告诉以下代码的输出 include
asp.net mvc3 基于模型检查单选按钮

我有一个看似简单的任务即根据模型的布尔值设置选中单选按钮我的模型 IsSDPDonor 中有一个布尔值我想将它用于是否单选按钮如果 IsSDPDonor 为 true 则应检查 Yes 单选按钮如果为 false 则应检查
Bootstrap Multiselect 获取 HttpPost 上的选定值

我正在用这个引导多选我的问题是我无法在 ASP Net MVC 上的 HttpPost 上获取所选值遇到的问题单击保存后仅显示第一个选定的值该模型 SOLVED 单击保存后仅显示第一个选定的值下拉列表示例 html m
具有不同查询参数的两种 GET 方法

我们可以创建相同的 GET URI 但具有不同的查询参数吗例如我有两个 REST GET URI questions ask type rest questions ask byUser john 现在 REST 服务不会将两个 GET
Camel http4 使用 Https 上的基本身份验证下载文件

我正在尝试从以下位置下载文件Https需要基本身份验证的 url 我正在使用 HTTP4 我正在尝试从网址下载文件下载后我需要将其保存到文件夹中这是我的代码的样子 from xxx to http4 ebc cybersource c
以编程方式在另一个桌面（空间）中打开 NSWindow

在我的 OSX 项目中我想要识别 NSWindow 所在的桌面公开空间之一在确定的 Space 中打开 NSWindow 而不仅仅是在当前 Space 上有没有办法完成这些简单的任务浏览文档 NSWindowController
“void”是函数的有效返回值吗？

private void SaveMoney string id public void DoSthWithMoney string action string id if action save return SaveMoney stri
在WPF DataGrid中通过列标题获取列索引

如何获得Column索引或Column DisplayIndex从它的Column Header in WPF DataGrid 我知道Column Header 想要得到column index 你可以用DisplayIndex 请注意
在 netbeans 中为 .dll/.so 文件提供“java.library.path”

我如何给出路径 dll or sonetbeans 中的文件以使用以下方式加载库 System loadLibrary Foo I read 这在 Netbeans 页面上但无法帮助我因为它给出了不满意的链接错误这是我尝试过的两件事
wymeditor 无法保存插入的 iframe

Wym编辑器 http wymeditor org 总是删除插入的 iframe 的内容所以我无法将 vimeo 播放器块添加到我的页面我怎样才能避免它问候阿列克谢扎哈罗夫 Since 2011 年 5 月 31 日 WYMedi
Windows 上 MBCS 和 UTF-8 的区别

我正在阅读有关 Windows 上的字符集和编码的信息我注意到 Visual Studio 编译器针对 C 中有两个编译器标志称为 MBCS 和 UNICODE 它们之间有什么区别我不明白的是 UTF 8 在概念上与 MBCS 编码
在 HTML5 canvas 元素内移动矩形（像素）区域的最快方法是什么

我想实现 HTML5 canvas 元素内容的垂直滚动我不想再次渲染整个内容相反我想将整个内容向下向上移动并仅渲染已滚动到视图中的区域我尝试过getImageData and putImageData函数但在我的测试中它们几乎
linux中有类似COM0COM这样的程序吗？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南目前不接受答案我在Windows中使用com0com进行程序测试 linux下有没有类似com0com的程序我知道有 pts ptmx 但我想要的是一个独立的程
Google 地球与 Google 地图 API v3 集成了吗？

我正在尝试将 Google 地球集成到 Google 地图中我发现它是possible在 v2 中但我找不到任何关于如何使用 v3 执行此操作的文档不幸的是这尚未在 Google Maps API v3 中实现请参阅相应的tick
groupByKey 是否比 reduceByKey 更受青睐

我总是用reduceByKey当我需要对 RDD 中的数据进行分组时因为它在打乱数据之前执行映射端缩减这通常意味着更少的数据被打乱从而获得更好的性能即使当map端reduce函数收集了所有值并且没有实际减少数据量时我仍然使用red

groupByKey 是否比 reduceByKey 更受青睐

groupByKey 是否比 reduceByKey 更受青睐 的相关文章

随机推荐

热门标签

groupByKey 是否比 reduceByKey 更受青睐的相关文章