spark启动流程1

2023-10-31

1 standalone模式

1.Driver端启动SparkSubmit进程，启动后开始向Master进行通信，此时创建了一个对象（SparkContext），接着向Master发送任务消息
2.Master接收到任务信息后，开始资源调度，此时会和所有的Worker进行通信，找到空闲的Worker，并通知Worker来拿取任务和启动相应的Executor
3.Executor启动后，开始与Driver进行反向注册，接下来Driver开始把任务发送给相应的Executor，Executor开始计算任务

1.调用SparkSubmit类，内部执行submit --> doRunMain -> 通过反射获取应用程序的主类对象 --> 执行主类的main方法。
2.构建SparkConf和SparkContext对象，在SparkContext入口做了三件事，创建了SparkEnv对象（创建了ActorSystem对象），TaskScheduler（用来生成并发送task给Executor），DAGScheduler（用来划分Stage）。
3.ClientActor将任务信息封装到ApplicationDescription对象里并且提交给Master。
4.Master收到ClientActor提交的任务信息后，把任务信息存在内存中，然后又将任务信息放到队列中。
5.当开始执行这个任务信息的时候，调用scheduler方法，进行资源的调度。
6.将调度好的资源封装到LaunchExecutor并发送给对应的Worker。
7.Worker接收到Master发送过来的调度信息（LaunchExecutor）后，将信息封装成一个ExecutorRunner对象。
8.封装成ExecutorRunner后，调用ExecutorRunner的start方法，开始启动 CoarseGrainedExecutorBackend对象。
9.Executor启动后向DriverActor进行反向注册。
10.与DriverActor注册成功后，创建一个线程池（ThreadPool），用来执行任务。
11.当所有的Executor注册完成后，意味着作业环境准备好了，Driver端会结束与SparkContext对象的初始化。
12.当Driver初始化完成后（创建了sc实例），会继续执行我们提交的App的代码，当触发了Action的RDD算子时，就触发了一个job，这时就会调用DAGScheduler对象进行Stage划分。
13.DAGScheduler开始进行Stage划分。
14.将划分好的Stage按照区域生成一个一个的task，并且封装到TaskSet对象，然后TaskSet提交到TaskScheduler。
15.TaskScheduler接收到提交过来的TaskSet，拿到一个序列化器，对TaskSet序列化，将序列化好的TaskSet封装到LaunchExecutor并提交到DriverActor。
16.把LaunchExecutor发送到Executor上。
17.Executor接收到DriverActor发送过来的任务（LaunchExecutor），会将其封装成TaskRunner，然后从线程池中获取线程来执行TaskRunner。
18.TaskRunner拿到反序列化器，反序列化TaskSet，然后执行App代码，也就是对RDD分区上执行的算子和自定义函数。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

spark

spark启动流程1 的相关文章

spark性能优化调优指导性文件

1 让我们看一下前面的核心参数设置 num executors 10 20 executor cores 1 2 executor memory 10 20 driver memory 20 spark default parallelis
Spark广播变量与累加器

在之前的文章中我介绍了flink广播状态从而了解了flink广播状态实际上就是将一个流广播到下游所有算子之中在本文中我将介绍spark中类似的概念为了方便理解先放张spark应用程序架构图 1 普通spark变量实际上如果我们
windows下安装spark及hadoop

windows下安装spark 1 安装jdk 2 安装scala 3 下载spark spark下载地址 3 1安装spark 将下载的文件解压到一个目录注意目录不能有空格比如说不能解压到C Program Files 作者解压到了这
Spark性能调优之Shuffle调优

Spark性能调优之Shuffle调优 Spark底层shuffle的传输方式是使用netty传输 netty在进行网络传输的过程会申请堆外内存 netty是零拷贝所以使用了堆外内存 shuffle过程中常出现的问题常见问题一 redu
11.Linux下Spark的安装配置以及spark-shell的启动和 Spark集群环境搭建

本案例软件包链接 https pan baidu com s 1zABhjj2umontXe2CYBW DQ 提取码 1123 若链接失效在下面评论我会及时更新目录 1 安装Spark 1 先用xftp将安装包传到home hadoo
Kafka传输数据到Spark Streaming通过编写程序java、scala程序实现操作

一案例说明现有一电商网站数据文件名为buyer favorite1 记录了用户对商品的收藏数据数据以 t 键分割数据内容及数据格式如下二前置准备工作项目环境说明 Linux Ubuntu 16 04 jdk 7u75 lin
Spark中的基本概念

Spark中的基本概念 1 基本概念 1 1 RDD 弹性分布式数据集 1 2 DAG 有向无环图 1 3 Partition 数据分区 1 4 NarrowDependency 窄依赖 1 5 ShuffleDependency 宽依赖
SparkSQL HiveSQL 常用正则表达式

SparkSQL HiveSQL 常用正则表达式目录 SparkSQL HiveSQL 常用正则表达式 1 匹配汉字 2 匹配手机号码 3 匹配身份证 4 SparkSQL HiveSQL 常用正则函数 5 SparkSQL 分组聚合
【Spark系列2】reduceByKey和groupByKey区别与用法

在spark中我们知道一切的操作都是基于RDD的在使用中 RDD有一种非常特殊也是非常实用的format pair RDD 即RDD的每一行是 key value 的格式这种格式很像Python的字典类型便于针对key进行一些处理
Kafka/Spark消费topic到写出到topic

1 Kafka的工具类 1 1 从kafka消费数据的方法消费者代码 def getKafkaDStream ssc StreamingContext topic String groupId String consumerConfigs
浅谈Hadoop体系和MPP体系

浅谈Hadoop体系和MPP体系引言如题在大数据发展至今为了应对日益繁多的数据分析处理和解决客户各种奇思妙怪想需求形形色色的大数据处理的框架和对应的数据存储手段层出不穷有老当益壮的Hadoop体系依靠Hadoop巨大的社
【Apache Spark 】第 1 章Apache Spark 简介：统一分析引擎

大家好我是Sonhhxg 柒希望你看完之后能对你有所帮助不足请指正共同学习交流个人主页 Sonhhxg 柒的博客 CSDN博客欢迎各位点赞收藏留言系列专栏机器学习 ML 自然语言处理 NLP 深度学习 DL fore
【Spark NLP】第 7 章：分类和回归

大家好我是Sonhhxg 柒希望你看完之后能对你有所帮助不足请指正共同学习交流个人主页 Sonhhxg 柒的博客 CSDN博客欢迎各位点赞收藏留言系列专栏机器学习 ML 自然语言处理 NLP 深度学习 DL fore
Hudi和Kudu的比较

与Kudu相比 Kudu是一个支持OLTP workload的数据存储系统而Hudi的设计目标是基于Hadoop兼容的文件系统如HDFS S3等重度依赖Spark的数据处理能力来实现增量处理和丰富的查询能力 Hudi支持Increme
数据中台-让数据用起来-6

文章目录第六章数据开发数据价值提炼工厂 6 1 数据计算能力的4种类型 6 1 1 批计算 6 1 2 流计算 6 1 3 在线查询 6 1 4 即席分析 6 2 离线开发 1 作业调度 2 基线控制 3 异构存储 4 代码校验 5
11.Linux下Spark的安装配置以及spark-shell的启动和 Spark集群环境搭建

本案例软件包链接 https pan baidu com s 1zABhjj2umontXe2CYBW DQ 提取码 1123 若链接失效在下面评论我会及时更新目录 1 安装Spark 1 先用xftp将安装包传到home hadoo
大数据手册(Spark)--Spark基本概念

文章目录 Spark 基本概念 Hadoop 生态 Spark 生态 Spark 基本架构 Spark运行基本流程弹性分布式数据集 RDD Spark安装配置 Spark基本概念 Spark基础知识 PySpark版 Spark机器学习
Spark常用参数解释

Spark的默认配置文件位于堡垒机上的这个位置 SPARK CONF DIR spark defaults conf 用户可以自行查看和理解需要注意的是默认值优先级最低用户如果提交任务时或者代码里明确指定配置则以用户配置为先用户再
Spark SQL 项目：实现各区域热门商品前N统计

一需求1 1 需求简介这里的热门商品是从点击量的维度来看的计算各个区域前三大热门商品并备注上每个商品在主要城市中的分布比例超过两个城市用其他显示 1 2 思路分析使用 sql 来完成碰到复杂的需求可以使用 udf 或 udaf查
2023_Spark_实验二十九：Flume配置KafkaSink

实验目的掌握Flume采集数据发送到Kafka的方法实验方法通过配置Flume的KafkaSink采集数据到Kafka中实验步骤一明确日志采集方式一般Flume采集日志source有两种方式 1 Exec类型的Source 可

随机推荐

VMware中Centos Linux 8虚拟机安装过程

VMware Workstation的安装过程已经有博文分享本文是VMware安装成功后虚拟机安装的过程在安装前需要下载CentOS镜像文件阿里云地址为 https mirrors aliyun com centos 我下载的是8 即
下载百度网盘资源不限速的两种方法

下载百度网盘资源不限速的两种方法方法1 适合文件大小4g以下的下载由于直接用proxpee down下载资源文件时出现 error code 31090 error msg package is too large request id
神仙文献管理软件Mendeley 保姆级教程

神仙文献管理软件Mendeley 保姆级教程英国文文的文章知乎 https zhuanlan zhihu com p 65992720 Mendeley是一款Elsevier公司旗下的免费文献管理软件集文献的搜集管理搜索阅读标
云计算与大数据-虚拟化与容器技术题库

第2章虚拟化与容器技术习题 2 1 选择题 1 典型的虚拟化架构不包括 D A 宿主机操作系统 B 虚拟机 C 虚拟化层 D 虚拟内存 2 虚拟化技术的研究目的包括 D A 降低管理成本 B 增强可移植性 C 提高软件开发效率 D 以上都
用java PreparedStatement就不用担心sql注入了吗？

http www cnblogs com iyangyuan archive 2015 09 15 4809494 html 用java PreparedStatement就不用担心sql注入了吗言归正传对java有了解的同学基本上都体
Flutter 画笔(Paint)、drawRect(绘制矩形)、PaintingStyle

观察走在你前面的人看看他为何领先学习他的做法 drawRect rect paint rect 矩形 paint 画笔 PaintingStyle fill 用画笔填充绘制 Rect fromCircle Offset center d
用JAVA语言实现赛马游戏

在大二下半学期学校举办了一场编程比赛其中一个选题就是用JAVA语言实现一个赛马游戏程序此程序即为当时的参赛完成的程序程序界面风格在当时的情况下来看算是比较美观的但是遗憾的是当时笔者对程序体系的认识有限将数据库连接部分的代码
VMware修复Ubuntu启动不了问题

VMware修复Ubuntu启动不了问题最近在VMware 虚拟机里面安装了Ubuntu10 10 安装配置Eclipse Android SDK 无奈修改系统配置参数后启动不了只好通过iso安装文件启动进入原来的系统进行修复把这个过
Chrome自动运行Js去广告，利用插件网页自动运行Js脚本，油猴去广告教程【去处指定部位的广告】

免自写代码去除广告点击即可安装点此去向去除广告的油猴脚本以下是教学如何自己写油猴脚本删除指定广告的目的页面 https m dmzj com view 33353 61162 html 可以看到由这两个网页元素组成了网页广告一个灰
keras和tensorflow的匹配版本

keras和tensorflow版本之间的匹配是非常重要的因为它们之间的兼容性可能存在一些问题以下是一些keras和tensorflow之间的匹配版本 tensorflow 1 x keras是tensorflow 1 x的一部分可以
git Tag标签/Android studio git创建与删除标签（Tag）

fffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff一
unity3d 脚本参考-技术文档

unity3d 脚本参考技术文档核心提示一脚本概览这是一个关于Unity内部脚本如何工作的简单概览 Unity内部的脚本是通过附加自定义脚本对象到游戏物体组成的在脚本对象内部不同志的函数被特定的事件调用最常用的列在下面 Upd
用ue5写一个根据数据更换标签图片的蓝图

在 Unreal Engine 5 UE5 中您可以使用蓝图来实现根据数据更换标签图片的功能以下是一个示例蓝图其中包含了您可能需要使用的各种节点首先您需要获取数据例如使用变量节点获取变量或使用从全局变量获取节点获取全局变
arduino-esp32-cam环境配置和例程使用

如果想要深度开发请使用esp idf开发自由度更高同时也比较复杂我的主要目的是模块到手后快速上手评测检查模块是否可以使用一硬件准备 1 aithinker esp32 cam模块一个 2 usb转串口模块比如ch340 cp
Ubuntu linux 手动编译安装 Realtek 8852 无线网卡驱动非常简单添加Manjaro教程

由于8852是刚出的支持wifi6的无线网卡因此只有Windows驱动而Linux 用只能自己编译驱动好在不麻烦本驱动置只支持5 4及以上内核请确认安装必要工具 sudo apt get update sudo apt get
np.mgrid的含义及reshape(2,-1）等

np mgrid的含义及reshape 2 1 等 np mgrid np mgrid 介于网上很多教程只是单纯说用法而对其意思解释不清楚因此写了该释义 np mgrid中含有grid 网格顾名思义功效与网格相关先看官方解释废话
Linux查看系统基本信息，版本信息（最全版）

Linux下如何查看版本信息包括位数版本信息以及CPU内核信息 CPU具体型号 1 uname a Linux查看版本当前操作系统内核信息 2 cat proc version Linux查看当前操作系统版本信息 3 cat etc i
oss文件上传与下载

上传如何使用流式上传和文件上传方式上传文件对象存储 OSS 阿里云 package com vazyme kf client aliyun oss manager import com aliyun oss ClientExceptio
01-----YUV各种格式的详解

一 YUV格式有两大类 planar和packed YUV格式粗分有两大类 planar和packed 细分有三大类分别是planar和packed 再加上semi Planar 半平面格式 1 对于planar的YUV格式先连续存
spark启动流程1

1 standalone模式 1 Driver端启动SparkSubmit进程启动后开始向Master进行通信此时创建了一个对象 SparkContext 接着向Master发送任务消息 2 Master接收到任务信息后开始资源调度

spark启动流程1

spark启动流程1 的相关文章

随机推荐

热门标签