【Spark系列2】reduceByKey和groupByKey区别与用法

2023-11-17

在spark中，我们知道一切的操作都是基于RDD的。在使用中，RDD有一种非常特殊也是非常实用的format——pair RDD，即RDD的每一行是（key, value）的格式。这种格式很像Python的字典类型，便于针对key进行一些处理。

针对pair RDD这样的特殊形式，spark中定义了许多方便的操作，今天主要介绍一下reduceByKey和groupByKey，因为在接下来讲解《在spark中如何实现SQL中的group_concat功能？》时会用到这两个operations。

首先，看一看spark官网[1]是怎么解释的：

reduceByKey(func, numPartitions=None)

Merge the values for each key using an associative reduce function. This will also perform the merginglocally on each mapper before sending results to a reducer, similarly to a “combiner” in MapReduce. Output will be hash-partitioned with numPartitions partitions, or the default parallelism level if numPartitions is not specified.

也就是，reduceByKey用于对每个key对应的多个value进行merge操作，最重要的是它能够在本地先进行merge操作，并且merge操作可以通过函数自定义。

groupByKey(numPartitions=None)

Group the values for each key in the RDD into a single sequence. Hash-partitions the resulting RDD with numPartitions partitions. Note: If you are grouping in order to perform an aggregation (such as a sum or average) over each key, using reduceByKey or aggregateByKey will provide much better performance.

也就是，groupByKey也是对每个key进行操作，但只生成一个sequence。需要特别注意“Note”中的话，它告诉我们：如果需要对sequence进行aggregation操作（注意，groupByKey本身不能自定义操作函数），那么，选择reduceByKey/aggregateByKey更好。这是因为groupByKey不能自定义函数，我们需要先用groupByKey生成RDD，然后才能对此RDD通过map进行自定义函数操作。

为了更好的理解上面这段话，下面我们使用两种不同的方式去计算单词的个数[2]：

val words = Array("one", "two", "two", "three", "three", "three")

val wordPairsRDD = sc.parallelize(words).map(word => (word, 1))

val wordCountsWithReduce = wordPairsRDD.reduceByKey(_ + _)

val wordCountsWithGroup = wordPairsRDD.groupByKey().map(t => (t._1, t._2.sum))

上面得到的wordCountsWithReduce和wordCountsWithGroup是完全一样的，但是，它们的内部运算过程是不同的。

（1）当采用reduceByKeyt时，Spark可以在每个分区移动数据之前将待输出数据与一个共用的key结合。借助下图可以理解在reduceByKey里究竟发生了什么。注意在数据对被搬移前同一机器上同样的key是怎样被组合的(reduceByKey中的lamdba函数)。然后lamdba函数在每个区上被再次调用来将所有值reduce成一个最终结果。整个过程如下：

（2）当采用groupByKey时，由于它不接收函数，spark只能先将所有的键值对(key-value pair)都移动，这样的后果是集群节点之间的开销很大，导致传输延时。整个过程如下：

因此，在对大数据进行复杂计算时，reduceByKey优于groupByKey。

另外，如果仅仅是group处理，那么以下函数应该优先于 groupByKey ：
　　（1）、combineByKey 组合数据，但是组合之后的数据类型与输入时值的类型不一样。
　　（2）、foldByKey合并每一个 key 的所有值，在级联函数和“零值”中使用。

最后，对reduceByKey中的func做一些介绍：

如果是用Python写的spark，那么有一个库非常实用：operator[3]，其中可以用的函数包括：大小比较函数，逻辑操作函数，数学运算函数，序列操作函数等等。这些函数可以直接通过“from operator import *”进行调用，直接把函数名作为参数传递给reduceByKey即可。如下：

<span style="font-size:14px;">from operator import add
rdd = sc.parallelize([("a", 1), ("b", 1), ("a", 1)])
sorted(rdd.reduceByKey(add).collect())

[('a', 2), ('b', 1)]</span>

参考：

[1] http://spark.apache.org/docs/latest/api/python/pyspark.html?highlight=reducebykey#pyspark.RDD.reduceByKey

[2] http://www.iteblog.com/archives/1357

[3] https://docs.python.org/2/library/operator.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

spark

【Spark系列2】reduceByKey和groupByKey区别与用法的相关文章

spark集群搭建与mysql元数据管理

找个spark集群搭建是针对于上一篇hadoop的基础上搭建的所以spark的版本也是要按照着hadoop版本进行下载 1 解压spark 修改spark的 etc profile的home目录 2 安装SCALA 并配置SCALA HO
Spark（七）——累加器和广播变量

5 累加器通过在驱动器中调用SparkContext accumulator initialValue 方法创建出存有初始值的累加器返回值为org apache spark Accumulator T 对象其中 T 是初始值 ini
Spark基础知识(个人总结)

声明 1 本文为我的个人复习总结并非那种从零基础开始普及知识内容详细全面言辞官方的文章 2 由于是个人总结所以用最精简的话语来写文章 3 若有错误不当之处请指出一 Spark概述 Spark模块 Core SQL Streami
11.Linux下Spark的安装配置以及spark-shell的启动和 Spark集群环境搭建

本案例软件包链接 https pan baidu com s 1zABhjj2umontXe2CYBW DQ 提取码 1123 若链接失效在下面评论我会及时更新目录 1 安装Spark 1 先用xftp将安装包传到home hadoo
Spark数据处理实战之列空值&新增列处理

在spark dataset dataframe操作过程中我们经常会遇到对于一个列值的一些判断情况是否为NULL 创建一个新列等本文讲解了常用的增加列的方法并且对于列空值判断填充处理以及查询的api做了详细的描述和实例讲解阅读完
学习大数据spark——心得体会

总结与体会 1 项目总结本次项目实现了Spark 单机模式Python版的安装介绍了与Spark编程有关的一些基本概念特别对RDD的创建转换和行动操作做了比较详细的说明对从RDD 到DataFrame的实现进行了案例训练包括
dolphinschedule使用shell任务结束状态研究

背景配置的dolphin任务使用的是shell shell里包含了spark submit 如下截图 dolphin shell 介绍完毕开始说明现象有天有人调整了集群的cdp配置 executor cores max 1 我之前这
【Apache Spark 】第 1 章Apache Spark 简介：统一分析引擎

大家好我是Sonhhxg 柒希望你看完之后能对你有所帮助不足请指正共同学习交流个人主页 Sonhhxg 柒的博客 CSDN博客欢迎各位点赞收藏留言系列专栏机器学习 ML 自然语言处理 NLP 深度学习 DL fore
spark算子执行位置研究，driver端？executor端？

参考资料 https cloud tencent com developer article 1545723 前言 spark算子的执行位置 driver端还是executor端这些之前其实没有注意过最近在学流处理发现这个还是很重要
Spark SQL 之 Temporary View

Spark SQL 之 Temporary View spark SQL的 temporary view 是支持原生SQL 的方式之一 spark SQL的 DataFrame 和 DataSet 均可以通过注册 temporary vie
【Spark NLP】第 7 章：分类和回归

大家好我是Sonhhxg 柒希望你看完之后能对你有所帮助不足请指正共同学习交流个人主页 Sonhhxg 柒的博客 CSDN博客欢迎各位点赞收藏留言系列专栏机器学习 ML 自然语言处理 NLP 深度学习 DL fore
大数据开发必备面试题Spark篇合集

1 Hadoop 和 Spark 的相同点和不同点 Hadoop 底层使用 MapReduce 计算架构只有 map 和 reduce 两种操作表达能力比较欠缺而且在 MR 过程中会重复的读写 hdfs 造成大量的磁盘 io 读写操作
大数据—— Flink 的优化

目录一 Flink内存优化 1 1 Flink 内存配置二配置进程参数 2 1 场景 2 2 操作步骤三解决数据倾斜 3 1 场景描述 3 2 解决方式 3 2 1 数据源的消费不均匀调整并发度 3 2 2 数据分布不均匀四
使用Flink1.16.0的SQLGateway迁移Hive SQL任务

使用Flink的SQL Gateway迁移Hive SQL任务前言我们有数万个离线任务主要还是默认的DataPhin调度CDP集群的Hive On Tez这种低成本任务当然也有PySpark 打Jar包的Spark和打Jar包的Fl
Flume之：二、企业开发案例

Flume之二企业开发案例文章目录 Flume之二企业开发案例三企业开发案例 1 监控端口数据官方案例 2 实时读取本地文件到HDFS案例 3 实时读取目录文件到HDFS案例 4 flume监控Kafka gt Spark知识
2020-10-24 大数据面试问题

上周面试数据开发职位主要从公司的视角讲一下记录下面试流水 1 三面技术一轮hr 面到了cto 整体来看是这一周技术含量最高信息量最大的一个 1到4轮过了4个小时技术上的问题主要问的对数据分层的理解 1 一面自我介绍目前团队的规模多大 2
sparkstreamming 消费kafka(2)

spark streaming提供了两种获取方式一种是同storm一样实时读取缓存到内存中另一种是定时批量读取这两种方式分别是 Receiver base Direct 一 Receiver base Spark官方最先提供了基于R
Spark Sql之dropDuplicates去重

文章目录算子介绍示例问题解决 dropDuplicates和distinct 参考算子介绍 dropDuplicates去重原则按数据行的顺序保留每行数据出现的第一条 dropDuplicates 在Spark源码里面提供了以下
JAVA 安装与简单使用

JAVA简易安装下载安装环境变量进入变量界面设置变量验证JAVA环境运行Java程序个人站 ghzzz cn 还在备案很快就能访问了下载安装第一步当然是从官网下载安装java了网上有很多的教程这里简单的写一下在这里
2023_Spark_实验二十九：Flume配置KafkaSink

实验目的掌握Flume采集数据发送到Kafka的方法实验方法通过配置Flume的KafkaSink采集数据到Kafka中实验步骤一明确日志采集方式一般Flume采集日志source有两种方式 1 Exec类型的Source 可

随机推荐

ctfshow-web4

0x00 前言 CTF 加解密合集 CTF Web合集 0x01 题目 0x02 Write Up 和web3是相同的内容这里可以通过任意文件读取的方式来进行利用这里根据返回包知道是nginx 默认nginx日志是 var log ng
如何批量上传Maven仓库jar包到Nexus3.x私服

一手动mvn命令上传单个Jar mvn deploy deploy file DgroupId com oracle DartifactId ojdbc6 Dversion 10 2 0 1 0 Dpackaging jar Dfile
一、使用interrupt（）中断线程

当一个线程运行时另一个线程可以调用对应的Thread对象的interrupt 方法来中断它该方法只是在目标线程中设置一个标志表示它已经被中断并立即返回这里需要注意的是如果只是单纯的调用interrupt 方法线程并没有实际被中
执行pod setup 报错error: RPC failed; curl 18 transfer closed with outstanding read data remainin

执行pod setup 报错 error RPC failed curl 18 transfer closed with outstanding read data remaining fatal the remote end hung u
结构化稀疏----Learning with Structured Sparsity(学习与结构化稀疏)

Structured Sparsity是在标准稀疏算法基础上修改惩罚项而成约束项为图像先验信息迫使学习特征按照一定规则排列行成有结构的字典 Standard sparsity Group Sparsity Group Sparsit
dfs全排列总结

17 Letter Combinations of a Phone Number Medium 12161744Add to ListShare Given a string containing digits from 2 9 inclu
javascript代码混淆的原理

如何对JavaScript进行保护代码压缩去除空格换行等代码加密 eval eval可以将其中的参数按照JavaScript的的语法进行解析并执行其实就是将JavaScript的代码变成了eval的参数其中的一些字符会被按照特定的
Realtime_Multi-Person_Pose_Estimation demo.ipynb代码注释

该部分可以帮助很好的理解论文的实现部分源码地址 https github com ZheC Realtime Multi Person Pose Estimation 论文地址 https arxiv org abs 1611 08050
CVPR 2022

点击下方卡片关注 CVer 公众号 AI CV重磅干货第一时间送达作者弃之已授权转载源知乎编辑 CVer https zhuanlan zhihu com p 478079763 PR一下我们在CVPR 2022上的pape
12年经验资深产品经理领你从“产品小白”走向“产品大牛”

当今社会智能音箱智能机器人智能可穿戴设备等人工智能产品已经开始逐渐普及而人工智能产品经理却少之又少查看智联拉勾猎聘等多个招聘网站中企业招聘人工智能产品经理的岗位要求发现不同公司在招聘人工智能产品经理时的标准都不一样有些偏重
单点登录的实现

单点登录一般需要至少两个站一个登录站一个接入站确切的说应该是N个接入站各个站需要实现的功能如图简单说明登录站提供登录页面和退出功能并提供用户信息的获取服务接入站需要提供对应的登录成功回写服务目的是为了存储本地登录信息可以
VUE element-ui之el-popover弹出框在局部全屏下不显示问题及弹框、小箭头背景修改

问题局部全屏后el popover弹出框失效解决方法
PackagesNotFoundError: The following packages are not available from current channels

因为要用到lifelines 包在cmd中使用conda install lifelines 显示如下错误 PackagesNotFoundError The following packages are not available fr
uniapp 离线打包webview无法上传图片问题

离线打包上传文件选择文件上传失败从文件点击选择的内容可以上传成功其他路径进去上传失败查了好久是因为清单文件的目标版本targetSdkVersion 写了29 改成28或者不填就好了
SpringBoot + Spring Security多种登录方式：账号+微信网页授权登录

大家好我是宝哥一概述实现账号用户名微信网页授权登录集成在Spring Security的思路最重要的一点是要实现微信登录通过Spring Security安全框架时不需要验证账号密码二准备工作要实现该功能首先需要掌握
win10台式机rtl8188eu(FW 150 UM V2.0)无线网卡无法连接wifi（无法连接到这个网络）

同一个网卡同一个WiFi 在笔记本上能用能连接wifi 但是在台式机上就不能连接wifi 提示无法连接到这个网络如下图 win10版本都是1903 尝试换各种驱动都没解决最后更新主板bios 然后从微星主板客服得知可以问京东自营的
高校评优评奖管理系统

这是一个高校评优评奖管理系统供大家参考学习不懂的地方可以联系本人 1 管理员登陆学生申请管理员后台评优记录数据维护信息统计系统设置学生申报微信 17777665965 QQ 1161724197
纯 CSS 开关切换按钮
brk和sbrk及内存分配函数相关

brk和sbrk主要的工作是实现虚拟内存到内存的映射在GNUC中内存分配是这样的每个进程可访问的虚拟内存空间为3G 但在程序编译时不可能也没必要为程序分配这么大的空间只分配并不大的数据段空间程序中动态分配的空间就是从这一块分配
【Spark系列2】reduceByKey和groupByKey区别与用法

在spark中我们知道一切的操作都是基于RDD的在使用中 RDD有一种非常特殊也是非常实用的format pair RDD 即RDD的每一行是 key value 的格式这种格式很像Python的字典类型便于针对key进行一些处理

【Spark系列2】reduceByKey和groupByKey区别与用法

【Spark系列2】reduceByKey和groupByKey区别与用法 的相关文章

随机推荐

热门标签

【Spark系列2】reduceByKey和groupByKey区别与用法的相关文章