对Spark中一些基础概念的了解

2023-05-16

1、Driver：运行应用程序的main函数，并创建SparkContext进程。初始化SparkContext是为了准备Spark应用程序的运行环境，在Spark中由SparkContext负责与集群进行通信，并进行资源的申请、任务的分配和监控等。当Worker节点中的Executor部分运行完毕后，Driver同时负责将SparkContext关闭。
2、Executor：在Worker节点中，是Driver进程申请完资源后，被Spark应用所启动的一个进程，它可以运行task，也可以在内存或者磁盘中保存数据，每一个应用都有独立的Executor。
3、ClusterManager：在集群上获取资源的拓展服务，目前spark主要支持三种类型——standalone、mesos、yarn
4、Worker：集群中任何可以运行Spark应用的节点，在standalone模式中是指spark的conf目录下的slave文件配置的worker节点，在yarn模式中指的是nodemanager节点。
5、Task：一个可以发给Executor执行的工作单位，是运行spark应用的基本单元
6、Job：由Spark的action操作触发，在spark中通过runJob方法向spark集群提交Job
7、Stage：每个Job因为RDD之间的依赖关系会被拆分为多个task的集合，即stage。stage是由DAGScheduler来完成的。stage有Shuffle Map Stage和Result Stage两种。
8、DAGScheduler：面向stage的任务调度器，负责接收spark应用提交的Job，会根据RDD的依赖关系划分stage，并将stage提交到TaskScheduler。
9、TaskScheduler：面向Task的任务调度器，它会接收DAGScheduler提交过来的TaskSets（Task集合即stage），然后把一个个task提交到work节点运行，每个Executor运行什么task就是在此处进行分配的。
10、RDD：弹性分布式数据集，是Spark的编程模型，它被表示为已被分区、被序列化的、不可变的、有容错机制的，并能够并行操作的数据集合。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

spark

中一些基础概念的了解

对Spark中一些基础概念的了解的相关文章

SparkStreaming知识总结

一流式计算的概述 1 1 什么是流式计算 1 数据流与静态数据的区别数据流指的就是不断产生的数据是源源不断不会停止静态数据指的就是存储在磁盘中的固定的数据 2 流式计算的概念就是对数据流进行计算由于数据是炼苗不断的产生的所以
SparkSession和sparkSQL

一概述 spark 有三大引擎 spark core sparkSQL sparkStreaming spark core 的关键抽象是 SparkContext RDD SparkSQL 的关键抽象是 SparkSession Data
Spark数据处理实战之列空值&新增列处理

在spark dataset dataframe操作过程中我们经常会遇到对于一个列值的一些判断情况是否为NULL 创建一个新列等本文讲解了常用的增加列的方法并且对于列空值判断填充处理以及查询的api做了详细的描述和实例讲解阅读完
大数据面试题Spark篇（1）

目录 1 spark数据倾斜 2 Spark为什么比mapreduce快 3 hadoop和spark使用场景 4 spark宕机怎么迅速恢复 5 RDD持久化原理 6 checkpoint检查点机制 7 checkpoint和持久化的区别
SparkSQL HiveSQL 常用正则表达式

SparkSQL HiveSQL 常用正则表达式目录 SparkSQL HiveSQL 常用正则表达式 1 匹配汉字 2 匹配手机号码 3 匹配身份证 4 SparkSQL HiveSQL 常用正则函数 5 SparkSQL 分组聚合
【Spark系列2】reduceByKey和groupByKey区别与用法

在spark中我们知道一切的操作都是基于RDD的在使用中 RDD有一种非常特殊也是非常实用的format pair RDD 即RDD的每一行是 key value 的格式这种格式很像Python的字典类型便于针对key进行一些处理
【Apache Spark 】第 1 章Apache Spark 简介：统一分析引擎

大家好我是Sonhhxg 柒希望你看完之后能对你有所帮助不足请指正共同学习交流个人主页 Sonhhxg 柒的博客 CSDN博客欢迎各位点赞收藏留言系列专栏机器学习 ML 自然语言处理 NLP 深度学习 DL fore
基于Spark的电商用户行为实时分析可视化系统（Flask-SocketIO）

基于Spark的电商用户行为实时分析可视化系统 Flask SocketIO 项目简介该项目已上线蓝桥课程有需要的可凭邀请码 UB5mdLbl 学习哦有优惠课程地址 https www lanqiao cn courses 2629
【Spark NLP】第 7 章：分类和回归

大家好我是Sonhhxg 柒希望你看完之后能对你有所帮助不足请指正共同学习交流个人主页 Sonhhxg 柒的博客 CSDN博客欢迎各位点赞收藏留言系列专栏机器学习 ML 自然语言处理 NLP 深度学习 DL fore
大数据spark开发入门教程

大数据是互联网发展的方向大数据人才是未来的高薪贵族随着大数据人才的供不应求大数据人才的薪资待遇也在不断提升如果你也想进入大数据行业也想学习大数据技术大数据讲师认为可以先从spark技术开始一 Spark是什么 Spark是一
spark-submit 报错 Initial job has not accepted any resources

spark submit 报这样的错误 WARN scheduler TaskSchedulerImpl Initial job has not accepted any resources check your cluster UI to
spark中repartition和coalesce的区别

总的来讲两者对是否允许shuffle 不同 coalesce numPartitions shuffle false repartition numPartitions repartition 其实是 coalesce 中参数shuff
11.Linux下Spark的安装配置以及spark-shell的启动和 Spark集群环境搭建

本案例软件包链接 https pan baidu com s 1zABhjj2umontXe2CYBW DQ 提取码 1123 若链接失效在下面评论我会及时更新目录 1 安装Spark 1 先用xftp将安装包传到home hadoo
大数据手册(Spark)--Spark基本概念

文章目录 Spark 基本概念 Hadoop 生态 Spark 生态 Spark 基本架构 Spark运行基本流程弹性分布式数据集 RDD Spark安装配置 Spark基本概念 Spark基础知识 PySpark版 Spark机器学习
Spark的常用概念总结

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档文章目录前言一基本概念 1 RDD的生成 2 RDD的存储 3 Dependency 4 Transformation和Action 4 1 Transformatio
Spark常用参数解释

Spark的默认配置文件位于堡垒机上的这个位置 SPARK CONF DIR spark defaults conf 用户可以自行查看和理解需要注意的是默认值优先级最低用户如果提交任务时或者代码里明确指定配置则以用户配置为先用户再
Spark Sql之dropDuplicates去重

文章目录算子介绍示例问题解决 dropDuplicates和distinct 参考算子介绍 dropDuplicates去重原则按数据行的顺序保留每行数据出现的第一条 dropDuplicates 在Spark源码里面提供了以下
python+django基于Spark的国漫画推荐系统可视化大屏分析

国漫推荐信息是现如今社会信息交流中一个重要的组成部分本文将从国漫推荐管理的需求和现状进行分析使得本系统的设计实现具有可使用的价做出一个实用性好的国漫推荐系统使其能满足用户的需求并可以让用户更方便快捷地国漫推荐国漫推荐系统的设计开
Spark 中 BroadCast 导致的内存溢出(SparkFatalException)

背景本文基于 Spark 3 1 1 open jdk 1 8 0 352 目前在排查 Spark 任务的时候遇到了一个很奇怪的问题在此记录一下现象描述一个 Spark Application Driver端的内存为 5GB 一直
阿里技术官亲笔力作：Kafka限量笔记，一本书助你掌握Kafka的精髓

前言分布式堪称程序员江湖中的一把利器无论面试还是职场皆是不可或缺的技能而Kafka 这款分布式发布订阅消息队列的璀璨明珠其魅力之强大无与伦比对于Kafka的奥秘我们仍需继续探索要论对Kafka的熟悉程度恐怕阿里的大佬们

随机推荐

Android反射机制

Android反射机制实例创建一个测试类 Person public class Person private String name 61 34 张三 34 private int age 61 15 private String de
将json字符串转换为自定义对象

将json字符串转换为自定义对象将json转自定义对象或者List String json 61 34 34 name 34 cece 34 Gson gson 61 new Gson Person person1 61 gson fro
启动一个没有注册的Activity

废话不多说 xff0c 直接上代码 xff0c 如有不明白的可以私信留言 xff0c 一起进步在Application 中调用即可 AndroidManifest 中已经有注册过的activity class App extends Ap
将List＜Object＞集合（汉字、字母、数字）按照拼音来排序

目录将List xff1c Object xff1e 集合按照拼音来排序 1 需求 2 使用系统自带的compareTo可以排序汉字 xff0c 如果其中混入了字母 xff08 纯字母 xff09 xff0c 会直接排在汉字之前 xff0
手写findviewbyid和使用注解给变量赋值

手写findviewbyid和使用注解给变量赋值使用到注解和反射注解本身没有什么含义 xff0c 只有配合反射和插桩技术时才能体现价值我们平时要初始化view都需要调用findviewbyid xff0c 那我们可不可以省去这一步呢
Android Studio 内无法直接运行 main 方法

Android Studio 内无法直接运行 main 方法在 idea 下的 gradle xml 下 GradleProjectSettings 结点增加以下代码 span class token operator lt span o
Android 获取文件类型

根据文件头获取文件类型我这里只列举了4种 xff0c 其他种类只需要替换掉对应的判断即可 span class token operator span span class token operator span span class t
Cygwin的安装使用，及其软件包apt-cyg的配置使用，以及apt-cyg错误“/usr/bin/apt-cyg: line 25: $‘\r‘: command not found”解决

首先官网下载Cygwin的安装包 xff0c 然后双击开始安装 xff0c 如下选择 xff1a 接下来的安装地址你就随意了 xff0c 一直下一步到 xff0c 镜像地址的选择 xff0c 选了国内的快一些 xff0c 我这里就选了阿里
大疆无人机4G/5G图传直播编码器

M76是专为HDMI高清视频4G直播的需求 xff0c 为移动执法视频监控和远程直播开发的便携性的HDMI高清4G直播编码设备系统采用LINUX系统和海思HiS3516 xff0c 支持H 264 H 265视频压缩技术 xff0c 支持
51单片机上传数据到手机APP

前言 xff1a 最近在指导朋友毕设时发现的一个比较简单实用的功能实现功能 xff1a 将温度数据上传到手机APP 所需材料 xff1a 1 51单片机 2 WIFI模块 xff1a ESP8266 01S 3 温度传感器 xff1a D
ubuntu 14.04中firefox安装Adobe flash player

1 下载adobe flash player 插件下载地址为 http get adobe com cn flashplayer no redirect 我们选择 tar gz 的包 2 將下载好的包解压 xff0c 得到如下的文件 xf
解决ubuntu 14.04 “E: 无法获得锁 /var/lib/apt/lists/lock - open (11: 资源暂时不可用)”的问题

各位亲们在执行sudo apt get update时可能会出现如下的出错信息 xff1a E 无法获得锁 var lib apt lists lock open 11 资源暂时不可用 E 无法对目录 var lib apt lists 加
system settings里面的东西基本都没了

open terminal then unity control center
解决U盘中文件全部变成快捷方式的问题

1 文件夹选项 gt 工具 xff0c 去掉勾选隐藏受保护的操作系统文件 34 xff0c 这个时候你就可以看到原来你的文件啦 2 然后将这些文件复制到电脑里面 xff08 如 d 盘 xff09 3 格式化你的 U 盘 4 将你的文件的
unbuntu 14.04 中安装 codeblocs

许多同学喜欢用codeblocks来编写程序 xff0c 那么怎么在ubuntu下安装codeblocks呢 xff1f 这里给出小编自己的安装方法 1 组件安装在终端依次输入 xff1a sudo apt get install bui
ubuntu 下运行程序报错对‘std::cout’未定义的引用

在编译c 43 43 程序时运行gcc o fileio fileio cpp报错 xff0c 错误提示为 xff1a tmp ccinWfZ2 o xff1a 在函数 main 中 xff1a fileio cpp text 43 0x2
Ubuntu下Python3与Python2相互切换

python2切换python3 设置Python2及Python3优先级 sudo update span class token operator span alternatives span class token operator
超声波传感器(CH101&ch201) - Ⅱ

文章目录 1 前言 2 目前官方发布的Horn有以下几种 3 超声波TOF传感器 VS 红外线传感器 4 开发评估套件 1 前言上一篇简单的引入了CH101 CH201 这两种传感器这种传感器使用的时候除了需要芯片外还需要一个声学的
了解 Spark中的master、worker和Driver、Executor

master和worker是物理节点 xff0c 是在不同环境部署模式下和资源相关的两大内容 Driver和executor是进程 xff0c 是在spark应用中和计算相关的两大内容 1 master和worker节点 master节点常
对Spark中一些基础概念的了解

1 Driver xff1a 运行应用程序的main函数 xff0c 并创建SparkContext进程初始化SparkContext是为了准备Spark应用程序的运行环境 xff0c 在Spark中由SparkContext负责与集群进

对Spark中一些基础概念的了解

对Spark中一些基础概念的了解 的相关文章

随机推荐

热门标签

对Spark中一些基础概念的了解的相关文章