Spark的常用概念总结

2023-11-19

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

Spark是分布式批处理框架,提供分析挖掘与迭代式内存计算能力,支持多种语言(Scala/Java/Python)的应用开发。


一、基本概念

RDD
(Resilient Distributed Dataset)只读,可分区的分布式数据集,缓存内存中计算:

1.RDD的生成

从HDFS输入创建,或从与Hadoop兼容的其他存储系统中输入创建。
从父RDD转换得到新RDD。
从数据集合转换而来,通过编码实现。

2.RDD的存储

用户可以选择不同的存储级别缓存RDD以便重用(RDD有11种存储级别)。
当前RDD默认是存储于内存,但当内存不足时,RDD会溢出到磁盘中。

3.Dependency

窄依赖:指父RDD的每一个分区最多被一个子RDD的分区所用。
宽依赖:指子RDD的分区依赖于父RDD的所有分区。
在这里插入图片描述

4.Transformation和Action

对RDD的操作包含Transformation(返回值还是一个RDD)和Action(返回值不是一个RDD)两种.
Transformation操作是Lazy的,等Action的时候才会启动计算

4.1 Transformation操作可以分为如下几种类型:

4.1.1 视RDD的元素为简单元素。

输入输出一对一,且结果RDD的分区结构不变,主要是map。

输入输出一对多,且结果RDD的分区结构不变,如flatMap(map后由一个元素变为一个包含多个元素的序列,然后展平为一个个的元素)。

输入输出一对一,但结果RDD的分区结构发生了变化,如union(两个RDD合为一个,分区数变为两个RDD分区数之和)、coalesce(分区减少)。

从输入中选择部分元素的算子,如filter、distinct(去除重复元素)、subtract(本RDD有、其他RDD无的元素留下来)和sample(采样)。

4.1.2 视RDD的元素为Key-Value对:

对单个RDD做一对一运算,如mapValues(保持源RDD的分区方式,这与map不同);
以下三种涉及shuffer
对单个RDD重排,如sort、partitionBy(实现一致性的分区划分,这个对数据本地性优化很重要);

对单个RDD基于key进行重组和reduce,如groupByKey、reduceByKey;

对两个RDD基于key进行join和重组,如join、cogroup。

4.2 Action操作可以分为如下几种:

生成标量,如count(返回RDD中元素的个数)、reduce、fold/aggregate(返回几个标量)、take(返回前几个元素)。
生成Scala集合类型,如collect(把RDD中的所有元素倒入Scala集合类型)、lookup(查找对应key的所有值)。
写入存储,如与前文textFile对应的saveAsTextFile。
还有一个检查点算子checkpoint。当Lineage特别长时(这在图计算中时常发生),出错时重新执行整个序列要很长时间,可以主动调用checkpoint把当前数据写入稳定存储,作为检查点。

5.shuffle

Shuffle是MapReduce框架中的一个特定的phase,介于Map phase和Reduce phase之间,当Map的输出结果要被Reduce使用时,每一条输出结果需要按key哈希,并且分发到对应的Reducer上去,这个过程就是shuffle。由于shuffle涉及到了磁盘的读写和网络的传输,因此shuffle性能的高低直接影响到了整个程序的运行效率。
在这里插入图片描述

6.Spark Application的结构

Spark Application的结构可分为两部分:初始化SparkContext和主体程序。

初始化SparkContext:构建Spark Application的运行环境。
构建SparkContext对象,如:

new SparkContext(master, appName, [SparkHome], [jars])

参数介绍:

master:连接字符串,连接方式有local、yarn-cluster、yarn-client等。

appName:构建的Application名称。

SparkHome:集群中安装Spark的目录。

jars:应用程序代码和依赖包。

详细描述:https://spark.apache.org/docs/3.1.1/submitting-applications.html

二、Spark SQL常用概念

DataSet
DataSet是一个由特定域的对象组成的强类型集合,可通过功能或关系操作并行转换其中的对象。 每个Dataset还有一个非类型视图,即由多个列组成的DataSet,称为DataFrame。

DataFrame是一个由多个列组成的结构化的分布式数据集合,等同于关系数据库中的一张表,或者是R/Python中的data frame。DataFrame是Spark SQL中的最基本的概念,可以通过多种方式创建,例如结构化的数据集、Hive表、外部数据库或者是RDD。

1.Word Count

代码如下(示例):

def main(args:Array[String]):Unit={
//建立和框架的连接
val sparkConf=new SparkConf().setMaster("local").setAppName("WordCount")
val sc= new SparkContext(sparconf)
//读取文件,获取行数据
val lines:RDD[String]=sc.textFile("路径")
//分词
val words:RDD[String]=lines.flatMap(_.split(""))
//分组统计
val wordGroup:RDD[(String,Iterable[String])]words.groupBy(word=>word)
//对分组后的数据进行转换 
val wordToCount=wordGroup.map{
case(word,list)=>{
(word,list.size)
  }
}
//将结果采集打印
val array:Array[(String,Int)]=wordToCount,collrct()
array.foreach(println)
//关闭连接
sc.stop();
}

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Spark的常用概念总结 的相关文章

  • Kafka传输数据到Spark Streaming通过编写程序java、scala程序实现操作

    一 案例说明 现有一电商网站数据文件 名为buyer favorite1 记录了用户对商品的收藏数据 数据以 t 键分割 数据内容及数据格式如下 二 前置准备工作 项目环境说明 Linux Ubuntu 16 04 jdk 7u75 lin
  • spark-shell 加载本地文件报错 java.io.FileNotFoundException

    学习spark shell 时候发现一个问题 从本地文件加载数据生成RDD 报错 文件找不到 原因 spark shell 如果启动了集群模式 真正负责计算的executor会在 该executor所在的 worker节点上读取文件 并不是
  • Spark DataFrame的Join操作和withColumn、withColumnRenamed方法实践案例(Scala Demo代码)

    import org apache log4j Level Logger import org apache spark sql SparkSession import org apache spark sql functions obje
  • Spark on Kubernetes 与 Spark on Yarn 不完全对比分析

    前言 Apache Spark 是目前应用最广泛的大数据分析计算工具之一 它擅长于批处理和实时流处理 并支持机器学习 人工智能 自然语言处理和数据分析应用 随着 Spark 越来越受欢迎 使用量越来越大 狭义上的 Hadoop MR 技术栈
  • spark dataframe 数据类型转换

    文章目录 1 spark sql数据类型 数字类型 日期类型 复杂类型 2 spark sql和scala数据类型对比 3 spark sql数据类型转换示例 代码 输出 1 spark sql数据类型 数字类型 ByteType 代表一个
  • 学习大数据spark——心得体会

    总结与体会 1 项目总结 本次项目实现了Spark 单机模式Python版的安装 介绍了与Spark编程有关的一些基本概念 特别对RDD的创建 转换和行动操作做了比较详细的说明 对从RDD 到DataFrame的实现进 行了案例训练 包括
  • SparkSQL HiveSQL 常用正则表达式

    SparkSQL HiveSQL 常用正则表达式 目录 SparkSQL HiveSQL 常用正则表达式 1 匹配汉字 2 匹配手机号码 3 匹配身份证 4 SparkSQL HiveSQL 常用正则函数 5 SparkSQL 分组 聚合
  • Spark 源码阅读一-启动脚本

    Spark Complile Help Links Because spark 1 5 need maven version 3 3 3 so i track the branch 1 4 git branch a git checkout
  • Spark大数据分析与实战笔记(第一章 Scala语言基础-3)

    文章目录 1 3 Scala的数据结构 1 3 1 数组 数组的遍历 数组转换 1 3 2 元组 创建元组 获取元组中的值 拉链操作 1 3 3 集合 List Set Map 1 3 Scala的数据结构 对于每一门编程语言来说 数组 A
  • 大数据—— Flink 的优化

    目录 一 Flink内存优化 1 1 Flink 内存配置 二 配置进程参数 2 1 场景 2 2 操作步骤 三 解决数据倾斜 3 1 场景描述 3 2 解决方式 3 2 1 数据源的消费不均匀 调整并发度 3 2 2 数据分布不均匀 四
  • 学习笔记-Spark环境搭建与使用

    一 20 04 Ubuntu安装 清华源ISO源 https mirrors tuna tsinghua edu cn ubuntu releases 20 04 下载链接 https mirrors tuna tsinghua edu c
  • Flume之:二、企业开发案例

    Flume之 二 企业开发案例 文章目录 Flume之 二 企业开发案例 三 企业开发案例 1 监控端口数据官方案例 2 实时读取本地文件到HDFS案例 3 实时读取目录文件到HDFS案例 4 flume监控Kafka gt Spark知识
  • 11.Linux下Spark的安装配置以及spark-shell的启动和 Spark集群环境搭建

    本案例软件包 链接 https pan baidu com s 1zABhjj2umontXe2CYBW DQ 提取码 1123 若链接失效在下面评论 我会及时更新 目录 1 安装Spark 1 先用xftp将安装包传到home hadoo
  • Spark学习(文件读取路径)

    在不同的启动模式下 加载文件时的路径写法是不一样的 对于local模式下 默认就是读取本地文件 而在standlone或者yarn client 或者cluster模式下 默认读的都是hdfs文件系统 这几种模式下很难读取本地文件 这是很显
  • 2020-10-24 大数据面试问题

    上周面试数据开发职位主要从公司的视角讲一下记录下面试流水 1 三面技术一轮hr 面到了cto 整体来看是这一周技术含量最高信息量最大的一个 1到4轮过了4个小时 技术上的问题主要问的对数据分层的理解 1 一面自我介绍 目前团队的规模多大 2
  • Spark的常用概念总结

    提示 文章写完后 目录可以自动生成 如何生成可参考右边的帮助文档 文章目录 前言 一 基本概念 1 RDD的生成 2 RDD的存储 3 Dependency 4 Transformation和Action 4 1 Transformatio
  • sparkstreamming 消费kafka(2)

    spark streaming提供了两种获取方式 一种是同storm一样 实时读取缓存到内存中 另一种是定时批量读取 这两种方式分别是 Receiver base Direct 一 Receiver base Spark官方最先提供了基于R
  • JAVA 安装与简单使用

    JAVA简易安装 下载安装 环境变量 进入变量界面 设置变量 验证JAVA环境 运行Java程序 个人站 ghzzz cn 还在备案 很快就能访问了 下载安装 第一步当然是从官网下载安装java了 网上有很多的教程 这里简单的写一下 在这里
  • Spark SQL 项目:实现各区域热门商品前N统计

    一 需求1 1 需求简介这里的热门商品是从点击量的维度来看的 计算各个区域前三大热门商品 并备注上每个商品在主要城市中的分布比例 超过两个城市用其他显示 1 2 思路分析使用 sql 来完成 碰到复杂的需求 可以使用 udf 或 udaf查
  • python+django基于Spark的国漫画推荐系统 可视化大屏分析

    国漫推荐信息是现如今社会信息交流中一个重要的组成部分 本文将从国漫推荐管理的需求和现状进行分析 使得本系统的设计实现具有可使用的价 做出一个实用性好的国漫推荐系统 使其能满足用户的需求 并可以让用户更方便快捷地国漫推荐 国漫推荐系统的设计开

随机推荐

  • java.lang.StringIndexOutOfBoundsException: String index out of range: 22

    报错 in thread main java lang StringIndexOutOfBoundsException String index out of range 22 原因 for int i 0 i lt 255 i 输入的字符
  • element ui的el-tree多选树(复选框)父子节点关联不关联的问题,选中当前节点,他的子节点和父节点是否被选中,非常详细

    element ui的el tree多选树 复选框 父子节点关联不关联的问题 选中当前节点 他的子节点和父节点是否被选中 非常详细 属性check strictly 官方文档提供属性check strictly 在显示复选框的情况下 是否严
  • SQL Server2012 安装方法详解

    欢迎大家关注我的公众号 添加我为好友 首先要找到自己下载好的安装包 并且保持网络畅通 最近有不少细心的小伙伴反应安装包有问题 我这里进行了一下更新 链接 https pan baidu com s 1bB WS zmHy ow34mU ET
  • scss的基本语法的使用

    scss 1 声明变量 声明变量符 变量名称 变量值 eg width300 300px 2 变量调用 width300 300px 声明 main width width300 调用 3 局部变量和全局变量 定义在局部的变量不会影响其他的
  • 关于不重启Tomcat自动加载改变的class文件

    修改server xml 在Host标签下加入以下配置
  • cmake 怎么设定 prefix ?

    cmake D CMAKE INSTALL PREFIX usr
  • 分页节点

    动态调度技术 分页数据库 osg PageLOD 动态调度技术 如果数据庞大 那么是不可能一次性全部载入内存的 因此需要动态调度技术 动态调度技术 在显示当前视域中的场景元素的同时 预判下一步可能载入的数据 以及那些短时间内不会被看到的数据
  • win11共享打印机无法连接怎么办

    很多小伙伴都将电脑更新升级成Win11系统 当我们使用多台电脑却只有一台打印机时 就需要共享打印机却出现了Win11共享打印机无法连接的情况 遇到这种问题应该怎么解决呢 下面小编就给大家详细介绍一下Win11共享打印机无法连接的解决方法 大
  • hexo tags-标签设置-aloha

    打开博客界面里面的 config yml进行配置 打开如下 找到类似于下面这些的代码行 Directory source dir source public dir public tag dir tags 标签 archive dir ar
  • MySQL-group_concat()

    创建表格 CREATE TABLE dept emp emp no int 11 NOT NULL dept no char 4 NOT NULL from date date NOT NULL to date date NOT NULL
  • expandableListview实现侧滑删除

    本文地址 http blog csdn net xiehao 95 article details 44628491 使用swipelistview实现侧滑删除这样Demo已经很普及了 但是项目需要 expandableListview的i
  • 复习整理 Mask R-CNN

    理解Mask R CNN 文章目录 理解Mask R CNN 前言 一 简介 基础点 名词解释 简单复习 前言 为了综合复习 Mask R CNN 写一个博客 简言之 物体检测 产生一个切割mask 识别 和FasterR CNN区别 能生
  • spark-3.1.2兼容多版本hive

    2 3 9版本Hive的支持 直接在实例化SparkSession时 启用hive支持即可 例如 val spark SparkSession builder appName Spark Hive Example config spark
  • ThinkPHP 5 框架实现多语言 实例讲解

    ThinkPHP 5 框架实现多语言 今天给大家分享一篇tp5框架多语言的实例 第一步 您需要在配置文件中开启网站多语言 并添加语言允许列表 默认语言 default lang gt zh cn 语言允许列表 lang list gt zh
  • Oracle 用户锁定,解决办法

    启动cmd 窗口指令 切换中oracle 默认超级管理员账户 oracle 默认登入超级管理员 C Users Administratir gt sqlplus as sysdba 为admin 用户解锁 SQL gt alter user
  • CLIP-as-service 0.8.0 版本发布:新增支持大型 ONNX 模型文件

    CLIP as service 是一种用于编码图像和文本的低延迟 高可扩展性服务 它可以作为微服务轻松集成到神经搜索解决方案中 CLIP as service 0 8 0 现已正式发布 本次更新包含 3 个新增功能 1 个性能改进 1 个文
  • typeof 与 instanceof ,如何模拟实现一个 instanceof,有没有通用检测数据类型?

    书山有路勤为径 学海无涯苦作舟 金三银四 面试加油 冲 一 typeof 1 typeof 优点 缺点 优点 能够快速区分基本数据类型 缺点 不能将Object Array和Null区分 都返回object 2 typeof 作用 区分数据
  • 运营商线路细分_呼叫中心各种线路的区分

    对于一个呼叫中心系统来说 最重要的一部分当然是线路 关系着电话的呼出和呼入 那么你了解什么是呼叫中心的线路吗 今天来给大家普及一下市面上常见的一些线路 以及线路的区别 呼叫系统的线路其实就是呼入与呼出的电话号码 只是会以不同的方式接入到系统
  • 【经验分享】Windows/Ubuntu上如何使用api下载kaggle上的数据集

    1 下载kaggle的api 1 1 已经安装了Anaconda 打开cmd Windows 打开终端 Ubuntu conda activate 你的conda环境名称 这里我的环境叫做Pytorch conda activate Pyt
  • Spark的常用概念总结

    提示 文章写完后 目录可以自动生成 如何生成可参考右边的帮助文档 文章目录 前言 一 基本概念 1 RDD的生成 2 RDD的存储 3 Dependency 4 Transformation和Action 4 1 Transformatio