spark学习2：spark运行基本架构

2023-10-30

各个名词介绍：

1.RDD -弹性分布式数据集

2.DAG -有向无环图

反应各RDD之间关系，即把第一个RDD和最后一个RDD 串联起来的关系图。

根据DAG 能够找到每个RDD的父RDD

3.executor

executor是驻守在各个工作节点中的一个进程，负责生成线程来执行分配给该工作节点的任务

4.application

程序员编写的一整个代码文件，比如一个 wordcount 代码文件

5.任务

executor派生出的一个个线程，每一个线程处理一个任务

Job=多个stage，Stage=多个同种task

6.作业

一个application 会被且分为多个作业，每个作业又会被且分为多个任务子集也叫阶段stage，每个阶段又被分为很多个任务，每个任务被分配到多个工作节点上执行

一个作业包含了多个RDD 以及对RDD的操作

Job=多个stage，Stage=多个同种task

7.sparkContext

存在于 Driver 节点中，相当于在指挥所中的指挥官

sparkcontxt 在收到application后，负责向资源管理器申请资源

然后切分作业，

2.spark运行架构：

主要分为3部分：Driver 节点、资源管理器节点、工作节点

执行顺序：

3.spark运行大致流程

1. sparkContext会根据对RDD的操作生成DAG图

首先用户提交的代码会提交到Driver端中，Driver端（相当于一个指挥所）会生成一个sparkContext（相当于一个指挥官）

那么 sparkContext 会根据提交的代码，（这些代码其实就是对RDD的操作），生成DAG有向无环图，记录了上游到下游各RDD之间依赖关系和对每个RDD的操作。

所以DAG中包含了两部分内容，第一部分，整个RDD的依赖关系，即从第一个到最后一个RDD串联起来的关系图，根据这个可以找到每个RDD的父RDD。

第二部分，记录了对每个RDD 的操作，比如是转换操作Transformation 或动作操作Action.

2.生成好的DAG会被发送给 DAG schedule

DAG schedule 会干两件事情，切分job 和切分stage

DAG schedule 会把DAG 切分成不同的job（也就是分为不同的作业）(每遇到一个Action算子操作，就切分一个作业Job )

每个Job中包含很多stage，相当于一个个子作业（每遇到一个宽依赖就切分stage，根据shuffle切分），stage中包含了很多的任务，是一个任务集合，所以stage 也是一个 task set 集合

Job=多个stage，Stage=多个同种task

3.生成好的task 会被提交给 task schedule

task schedule 会负责具体把任务，分配到哪个工作节点上去

在这个过程中 task schedule 并不是直接把任务扔给工作节点，而是各个工作节点向task schedule 申请/请求任务。

那么task schedule会根据“计算向数据靠拢”原则，把任务分给对应的工作节点。即数据储存在哪个工作节点work node上，就把这部分数据相关的计算任务，分给该work node，完成本地化处理。

task scedule 找到最优工作节点后，会把任务分配过去，其实就是我们编写的那些对RDD操作的代码传过去。

4.work node 上的 executor 执行完任务后，会把结果返回给 task schedule

然后 task schedule 再返回给 DAG schedule ，然后 DAG schedule 再返回给 SparkContext，由sparkContext 最后把结果返回给用户，或写入HDFS或其他存储中去。

ps:在整个过程中，sparkContext 是用户操作和集群，建立连接的一个通道

4.DAG schedule 如何划分stage 阶段的

DAG schedule 划分的主要依据是各个RDD之间的依赖关系，有两种依赖关系：宽依赖和窄依赖

如果是宽依赖那就切分stage

如果是窄依赖不切分

什么是宽依赖和窄依赖：

RDD之间是宽依赖或窄依赖主要看两个RDD之间有没有shuffle 即洗牌操作

如果从父RDD 到子RDD的时候，发生了 shuffle ，那么这两个 RDD就是宽依赖，那就会被DAG schedule 切分为两个 stage 阶段/作业

如果父RDD 到子RDD的时候，没发生shuffle ，那么是窄依赖，不会切分 stage

什么是 shuffle 操作：

shuffle 中文意思是洗牌，

那么对数据进行打散重新分配，这个过程其实就是shuffle

如下图，文件中的数据，传给了 3台 map节点，那么这3台蓝色的 map节点处理完数据后，要把数据传给黄色的3台 reduce 节点，

关键点就在这 3台蓝色的map节点是怎么传给黄色 3台reduce 节点的，

其实是把map节点所有数据进行盘点洗牌，找到（a, 1）元素发给 reduce1节点，找到（b, 1）元素发给 reduce2节点.....

这个就是洗牌，对数据进行重新清洗，找到特定元素发给特定节点。

shuffle 是需要大量的节点之间的网络IO开销的，并且shuffle一定会落磁盘。

什么是窄依赖:

有2种情况：

1、一个父RDD 对应一个子RDD

2、两个或多个父RDD 对应一个子RDD

什么是宽依赖

一个父RDD 对应多个子RDD

因为如果一个父RDD 对应多个子RDD ，那么父RDD 会进行洗牌操作，找到特定的元素发给特定的某个子节点。

5.DAG schedule 为什么要划分stage 阶段（作业）

DAG schedule 根据RDD之间的宽窄依赖关系，划分stage ，其实是为了提高数据处理的效率，为了实现流水线优化。

简单点说 spark只能对窄依赖进行优化，宽依赖没法优化，所以要把宽窄依赖分开。

先来看下spark的流水线优化的基本原理

首先，在并行处理有2个基本的操作，fork 和 join ， fork 是分发，join是汇集

spark的流水线优化其实就是对不必要的join的优化，减少不必要join，因为 join就可能有时间的等待

比如说，要实现把北京一个学校的学生送到厦门，根据宽窄依赖不同可以有2种方案

第一种，窄依赖情况，

如下图，分别由班长带男生和组织委员带女生，分别乘坐飞机（并行处理），先飞往上海集合后，再由班长带领男生、组织委员带女生，从上海飞往厦门。

那么在这个过程中由于要在上海集合，所以班长带的男生到达上海后，需要等待1小时的女生，

然后，两班人马从上海出发到厦门后，又要集合，所以女生要等男生1小时，

所以，全程用了 6小时。

在上边的例子中，班长带男生到上海后，等女生 1小时，其实是可以优化掉的，班长可以直接从北京到厦门，组织委员也是

这个就是 DAG的流水线优化最基本原理

第二种，宽依赖的情况：

班长在带领男生到上海后，需要带领 1班的学生去厦门，而组织委员在带领女生到上海后，需要带领 2班学生去厦门

那么在上海这个环节就需要把同学重新分配，组织委员带领的1班女生要到班长那边去，班长带的2班男生要到组织委员那边去，

就有重新洗牌的操作了，就有shuffle，

而且班长提前到达上海后，必须等组织委员和女生都到达以后才能出发，这也就是宽依赖不能优化的原因。

宽依赖一定会落磁盘

如下图，A -> B 就是一个宽依赖，所以A这部分，就切分为一个stage

然后 C -> D -> F都是窄依赖， F -> G 是宽依赖，所以 C D F是一个stage

最后 G汇总又是一个stage

一共3个stage

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

spark

大数据