Spark-scala-API

2023-05-16

1、sc.version
2、集群对象：SparkContext；获得Spark集群的SparkContext对象，是构造Spark应用的第一步！
SparkContext对象代表整个 Spark集群，是Spark框架功能的入口，可以用来在集群中创建RDD、累加器变量和广播变量。
SparkContext对象创建时可以指明连接到哪个集群管理器上，在Spark-Shell启动时，默认连接到本地的集群管理器。
使用SparkContext对象（在Shell里，就是sc变量）的master方法，可以查看当前连接的集群管理器：sc.master
3、分布数据集：RDD；使用SparkContext对象创建RDD数据集，然后，才能干点有意义的事情！
Spark的核心抽象是一个分布式数据集，被称为弹性分布数据集（RDD），代表一个不可变的、可分区、可被并行处理的成员集合。
RDD对象需要利用SparkContext对象的方法创建，Spark支持从多种来源创建RDD对象，比如：从本地文本文件创建、从Hadoop 的HDFS文件创建、或者通过对其他RDD进行变换获得新的RDD。
下面的示例使用本地Spark目录下的README.md文件创建一个新的RDD：
    scala> val textFile = sc.textFile("README.md")
    textFile: spark.RDD[String] = spark.MappedRDD@2ee9b6e3
我们看到，执行的结果是，返回了一个Spark.RDD类型的变量textFile，RDD是一个模板类，方括号里的String代表这个RDD对象成员的类型。由于是一个对象，因此值用地址表示：spark.MappedRDD@2ee9b7e3 。
SparkContext对象的textFile方法创建的RDD中，一个成员对应原始文件的一行。我们看到在执行的结果中可以看到返回一个 RDD，成员类型为String，我们将这个对象保存在变量textFile中。
使用README.md文件，创建一个RDD，保存到变量 textFile中。
4、操作数据集：RDD可以执行两种操作：变换与动作
RDD的内部实现了分布计算的功能，我们在RDD上执行的操作，是透明地在整个集群上执行的。也就是说，当RDD建立后，这个RDD就不属于本地了，它在整个集群中有效。当在RDD上执行一个操作，RDD内部需要和集群管理器进行沟通协商。
对一个RDD可以进行两种操作：动作（action）和变换（transformation）。动作总是从集群中取回数据，变换总是获得一个新的RDD，这是两种操作的字面上的差异。
事实上，当在RDD上执行一个变换时，RDD仅仅记录要做的变换，只有当RDD上需要执行一个动作时，RDD才通过集群管理器启动实质分布计算。
这有点像拍电影，变换操作只是剧本，只有导演喊Action的时候，真正的电影才开始制作。
5、感受动作和变换的区别;RDD操作分为两种：动作和变换，只有动作才会触发计算！
下面的例子首先做一个映射变换，然后返回新纪录的条数。map是一个变换，负责将原RDD的每个记录变换到新的RDD，count是一个动作，负责获取这个RDD的记录总数。
先执行map，你应该看到很迅速干净地返回：
    scala> val rdd2=textFile.map(line=>line.length)
    rdd2: org.apache.spark.rdd.RDD[Int] = MappedRDD[52] ...
再执行count，这会有些不一样：
    scala> rdd2.count()
    ......
    res10: Long = 141
    .....
当执行map时，我们看到结果很快返回了。但当执行count时，我们可以看到一堆的提示信息，大概的意思就是和调度器进行了若干沟通才把数据拉回来。
看起来确实这样，变换操作就只是写写剧本，Action才真正开始执行计算任务。
6、RDD动作：获取数据的控制权；RDD动作将数据集返回本地
对一个RDD执行动作指示集群将指定数据返回本地，返回的数据可能是一个具体的值、一个数组或一个HASH表。
让我们先执行几个动作：
    scala> textFile.count() // 这个动作返回RDD中的记录数
    res0: Long = 126

    scala> textFile.first() // 这个动作返回RDD中的第一个记录
count是一个动作，负责获取这个RDD的记录总数。first也是一个动作，负责返回RDD中的第一条记录。
在使用Spark时，最好在脑海中明确地区隔出两个区域：本地域和集群域。RDD属于集群域，那是Spark管辖的地带；RDD的动作结果属于本地域，这是我们的地盘。
只有当RDD的数据返回本地域，我们才能进行再加工，比如打印等等。
7、RDD变换：数据的滤镜；RDD变换总是返回RDD，这让我们可以把变换串起来！
RDD变换将产生一个新的RDD。下面的例子中，我们执行一个过滤（Filter）变换，将获得一个新的RDD，由原 RDD中符合过滤条件（即：包含单词Spark）的记录成员构成：
    scala> val linesWithSpark = textFile.filter(line => line.contains("Spark"))
    linesWithSpark: spark.RDD[String] = spark.FilteredRDD@7dd4af09
变量lineWithSpark现在是一个RDD，由变量textFile这个RDD中所有包含"Spakr"单词的行构成。
由于一个RDD变换总是返回一个新的RDD，因此我们可以将变换和动作使用链式语法串起来。下面的例子使用了链式语法解决一个具体问题：在文件中有多少行包含单词“Spark”？
    scala> textFile.filter(line => line.contains("Spark")).count()
    res3: Long = 15
这等同于：
    scala> val rdd1 = textFile.filter(line => line.contains("Spark"))
    ...
    scala> rdd1.count()
    res12: Long = 15
用链式语法写起来更流畅一些，不过这只是一种口味的倾向而已。
8、RDD操作组合；RDD的变换有点像PS的滤镜，有时要用好几个滤镜，才能把脸修好。
RDD的诸多动作和变换，经过组合也可以实现复杂的计算，满足相当多现实的数据计算需求。
假设我们需要找出文件中单词数量最多的行，做个map/reduce就可以了：
    scala> textFile.map(line => line.split(" ").size).reduce((a, b) => if (a > b) a else b)
    res4: Long = 15
上面语句首先使用map变换，将每一行（成员）映射为一个整数值（单词数量），这获得了一个新的RDD。然后在这个新的RDD上执行reduce动作，找到（返回）了单词数量最多的行。
9、count ：计数
使用count成员函数获得RDD对象的成员总数，返回值为长整型
10、top ：前N个记录
使用top成员函数获得RDD中的前N个记录，可以指定一个排序函数进行排序比较。如果不指定排序函数，那么使用默认的Ascii码序进行记录排序。
返回值包含前N个记录的数组，记录类型为T。
11、take：无序采样
使用take成员函数获得指定数量的记录，返回一个数组。与top不同，take在提取记录前不进行排序，它仅仅逐分区地提取够指定数量的记录就返回结果。可以将take方法视为对RDD对象的无序采样。
返回值包含指定数量记录的数组，记录类型为T。
12、first : 取第一个记录；使用first成员函数获得RDD中的第一个记录。
使用RDD的first方法获得第一条记录。不过，没有last方法！
13、max : 取值最大的记录
使用max成员函数获得值最大的记录，可以指定一个排序函数进行排序比较。默认使用 Ascii码序进行排序。
14、min : 取值最小的记录
使用min成员函数获得值最小的记录，可以指定一个排序函数进行排序比较。默认使用 Ascii码序进行排序。
15、reduce : 规约RDD；使用RDD的reduce方法进行聚合！
使用reduce成员函数对RDD进行规约操作，必须指定一个函数指定规约行为。
语法
    def reduce(f: (T, T) => T): T
参数 f : 规约函数 , 两个参数分别代表RDD中的两个记录，返回值被RDD用来进行递归计算。
示例
下面的示例使用匿名函数，将所有的记录连接起来构成一个字符串：
    scala> textFile.reduce((a,b)=>a+b)
    res60:String = #Apache SparkSpake is a fast...
16、collect : 收集全部记录
使用collect成员函数获得RDD中的所有记录，返回一个数组。collect方法可以视为对RDD对象的一个全采样。
17、map : 映射
映射变换使用一个映射函数对RDD中的每个记录进行变换，每个记录变换后的新值集合构成一个新的RDD。
语法
    def map[U](f: (T) => U)(implicit arg0: ClassTag[U]): RDD[U]
参数
    f : 映射函数，输入参数为原RDD中的一个记录，返回值构成新RDD中的一个记录。
   下面的示例将textFile的每个记录（字符串）变换为其长度值，获得一个新的RDD，然后取回第一个记录查看：
    scala> textFile.map(line=>line.length).first()
    res13:Int = 14
18、filter : 过滤
过滤变换使用一个筛选函数对RDD中的每个记录进行筛选，只有筛选函数返回真值的记录，才被选中用来构造新的RDD。
语法
    def filter(f: (T) => Boolean): RDD[T]
参数
    f : 筛选函数，输入参数为原RDD中的一个元素，返回值为True或False 。
    下面的示例仅保留原RDD中字符数多于20个的记录（行），获得一个新的RDD，然后取回第一个记录查看：
    scala> textFile.filter(line=>line.length>20).first()
    res20: String = Spark is a fast and generic .
19、sample : 采样；使用RDD的sample方法获得一个采样RDD！
采样变换根据给定的随机种子，从RDD中随机地按指定比例选一部分记录，创建新的RDD。采样变换在机器学习中可用于进行交叉验证。
语法
    def sample(withReplacement: Boolean, fraction: Double, seed: Long = Utils.random.nextLong): RDD[T]
参数
    withReplacement : Boolean , True表示进行替换采样，False表示进行非替换采样
    fraction : Double, 在0~1之间的一个浮点值，表示要采样的记录在全体记录中的比例
    seed ：随机种子
示例
下面的示例从原RDD中随机选择20%的记录，构造一个新的RDD，然后返回新RDD的记录数：
    scala> textFile.sample(true,0.2).count()
    res12: Long = 26

20、union : 合并；使用RDD的union方法，可以获得两个RDD的并集！
合并变换将两个RDD合并为一个新的RDD，重复的记录不会被剔除。
语法
    def union(other: RDD[T]): RDD[T]
参数
    other : 第二个RDD
示例
下面的示例，首先对textFile这个RDD进行一个每行反转的映射变换，获得一个新的RDD，再将这个新的RDD和原来的RDD：textFile进行合并，最后我们使用count查看一下总记录数：
    scala> textFile.map(line=>line.reverse).union(textFile).count()
    res13: Long = 282
可以看到，合并后的总记录数是原来的2倍。

21、intersection : 相交；使用RDD的intersection方法，可以获得两个RDD的交集！
相交变换仅取两个RDD共同的记录，构造一个新的RDD。
语法
    def intersection(other: RDD[T]): RDD[T]
参数
    other : 第二个RDD
示例
下面的示例将每个记录进行逆转后的RDD与原RDD相交，获得一个新的RDD，我们使用collect回收全部数据以便显示：
    scala> textFile.map(line=>line.reverse).intersection(textFile).collect()
    res27: Array[String] =Array("   ","")

可以看到，只有空行被保留下来，因为空行的逆序保持不变。

22、distinct : 剔重；使用RDD的distinct方法，可以进行记录剔重！
剔重变换剔除RDD中的重复记录，返回一个新的RDD。
语法
    def distinct(): RDD[T]
示例
下面的示例将RDD中重复的行剔除，并返回新RDD中的记录数：
    sala> textFile.distinct().count()
    res20: Long =91

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark-scala-API 的相关文章

为 NFL api 生成访问令牌

NFL 有一个 API 服务 link https api nfl com docs getting started index html https api nfl com docs getting started index html
使用 apply 方法的泛型类型的 Scala 工厂？

假设我有以下特征它定义了一个接口并采用几个类型参数 trait Foo A B implementation details not important 我想使用伴随对象作为该特征的具体实现的工厂我还想强制用户使用Foo接口而不是子类所
数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出
如何使方法通用而不出现“未找到匹配的形状”

除了编写大量样板文件之外我不知道如何克服这个找不到匹配的形状错误要点中说明的基本思想是我有一个非常基本的方法版本有效但非常具体然后是一个采用mapper参数并且更通用也可以工作但特定于一种特定类型然后是第三个版本它采
使用什么框架来引导我的第一个生产 scala 项目？

我正在第一次涉足 scala 的生产应用程序该应用程序当前打包为 war 文件我的计划是创建 scala 编译工件的 jar 文件并将其添加到 war 文件的 lib 文件夹中我的增强功能是通过 Jersey 公开的 mysql 支
laravel - 使用请求类或输入类

在宁静的控制器中我应该使用哪个类来获取传递的变量 member gt email Input get email or member gt email Request get email 两种选择都适合我但有什么区别 Input get
为什么同样的算法在 Scala 中运行比在 C# 中慢得多？以及如何让它更快？

该算法根据序列中每个成员的变体创建序列的所有可能变体 C 代码 static void Main string args var arg new List
ScalaTest v3：为什么需要实现convertToLegacyEqualizer

Using 斯卡拉测试3 0 0 http www scalatest org install环境 Scala 2 11 8 sbt 0 13 5 IntelliJ 14 1 4 build sbt 只有 NOTE not using or
在泛型方法中返回原始集合类型

假设我们想要创建一个像这样的函数minBy返回集合中同等极简主义的所有元素 def multiMinBy A B Ordering xs Traversable A f A gt B val minVal f xs minBy f xs f
在 Scala 中扩展函数1

在几个例子中我看到一个对象或一个类扩展Function1 E g object Cash extends CashProduct gt String in Scala 的隐藏功能 https stackoverflow com quest
函数式 Scala 中的选择排序

我正在学习 Scala 编程并编写了选择排序算法的快速实现然而由于我对函数式编程还不太了解所以在转换为更 Scala 风格时遇到了困难对于 Scala 程序员来说如何使用 Lists 和 vals 来做到这一点而不是回到我的命
Java时间转正常格式

我有 Java 时间1380822000000 我想转换为我可以阅读的内容 import java util Date object Ws1 val a new Date 1380822000000 toString 导致异常 warnin
如何将 Spark DataFrame 以 csv 格式保存在磁盘上？

例如这样的结果 df filter project en select title count groupBy title sum 将返回一个数组如何将 Spark DataFrame 作为 csv 文件保存在磁盘上 Apache Sp
将多个 Future[Seq] 连接成一个 Future[Seq]

如果没有 Future 这就是我将所有较小的 Seq 组合成一个大 Seq 的方式flatmap category getCategoryUrlKey id Int Seq Meta main method val appDomains S
将 Scala Future 转变为 CompletableFuture

我的项目中有一个 Akka 层它返回Scala Future 而接收 Future 的部分是 Java 风格的团队中的人不了解 Scala 他们宁愿使用CompletableFuture因为他们更了解 Java 8 API 有没有什么好
Scala [2.11.6] 编译 Stackoverflow 错误（似乎对迄今为止发现的建议有抵抗力）

scala版本 2 11 6 我当然尝试过clean很多次以及update 不确定是否有clean deeper刷新 jar 库真正奇怪的是这种情况同时发生在两台机器上其中一台在没有执行任何特殊操作的情况下恢复了而另一台仍然没有恢复
从apache Spark中的文本文件查找rdd中存储的数据大小

我是 Apache Spark 版本 1 4 1 的新手我编写了一段小代码来读取文本文件并将其数据存储在 Rdd 中有没有一种方法可以获取 rdd 中数据的大小这是我的代码 import org apache spark SparkC
无法证明与路径相关类型的等价性

为什么最后一个summon编译失败我该怎么做才能让它编译 import java time LocalDateTime LocalTime trait Circular T type Parent given localTimeCircu
Scala：为什么 Actor 是轻量级的？

是什么让演员如此轻盈我什至不确定它们是如何工作的它们不是单独的线程吗当他们说轻量级时他们的意思是每个参与者都没有映射到单个线程 JVM 提供共享内存线程锁作为主要形式并发抽象但分享了内存线程是相当重量级的并招致严重的绩效处
源值 1.5 的错误已过时，将在未来版本中删除

我使用 scala maven plugin 来编译包含 scala 和 java 代码的项目我已经将源和目标设置为1 7 但不知道为什么maven仍然使用1 5 这是我在 pom xml 中的插件

随机推荐

linux启动xfce桌面,Linux推荐使用Xfce桌面环境的8个原因

出于几个原因包括好奇心 xff0c 几周前我开始使用Xfce作为我的Linux桌面原因之一是后台守护进程占用了我非常强大的主工作站上所有的CPU和I O带宽当然 xff0c 有些不稳定可能是因为我删除了一些提供后台守护进程的RPM包
记一次性能优化，单台4核8G机器支撑5万QPS

前言这篇文章的主题是记录一次Python程序的性能优化 xff0c 在优化的过程中遇到的问题 xff0c 以及如何去解决的为大家提供一个优化的思路 xff0c 首先要声明的一点是 xff0c 我的方式不是唯一的 xff0c 大家在性能优
zabbix三种常用报警方式：邮件、微信和短信报警

部署环境 xff1a xff08 Zabbix的版本为3 4 10 xff09 Zabbix server xff1a 192 168 2 205 Centos 7 Zabbix agent xff1a 192 168 2 204 Cent
git中为当前项目添加user.name和user.email

git config add user name span class hljs string 39 yourName 39 span git config add user email span class hljs string 39
javascript错误解决:Unable to modify the parent container element before the child element is closed...

网页错误详细信息用户代理 Mozilla 4 0 compatible MSIE 8 0 Windows NT 5 1 Trident 4 0 Mozilla 4 0 compatible MSIE 6 0 Windows NT 5 1
一对多，多对多，一对一的理解

关系维护方和被维护方的理解 xff1a 关系维护方就是hibernate会主动去修改维护的 xff0c 比如one1设置为关系维护方 xff0c one2为被维护方 xff0c 那么在one1 save时 xff0c 会主动修改one2 x
炉石服务器维护周期,炉石传说：新手老手都要看！一个版本的周期你真的了解吗...

炉石传说的一年由三个版本构成 xff0c 一个版本约占四个月的时间那么 xff0c 一个版本要经历哪些阶段哪 xff1f 什么时候分解卡牌合成卡牌才合适哪 xff1f 今天作者就带大家一探究竟 01版本初期新版本上线第一天后就算进入了版
多元线性回归f检验和t检验_T检验与F检验，傻傻分不清楚？

1 T 检验和 F 检验的由来一般而言 xff0c 为了确定从样本 sample 统计结果推论至总体时所犯错的概率 xff0c 我们会利用统计学家所开发的一些统计方法 xff0c 进行统计检定通过把所得到的统计检定值 xff0c 与统计
电脑键盘部分按键失灵_笔记本键盘部分失灵怎么办,笔记本个别键失灵的处理方法...

据理解 xff0c 85 以上的用户都有遇上电脑键盘部分失灵的情况 xff0c 而键盘失灵 xff0c 不但会负面影响我们的工作 xff0c 而且还会负面影响我们的心情 xff0c 因此 xff0c 要认真对待 xff0c 不能马虎 xff
html实现点餐页面_前端页面之食堂点餐页面

写在前面 xff1a 我是这一项食堂点餐系统的开发者 xff0c 虽然现在准确的来说 xff0c 他还只算一个前端页面 xff0c 根本就不能算作一个项目这是我上周五晚上开始这个前端页面的规划图 xff0c 虽然最后我添加了一些东西 xf
关于#include "stdafx.h"（转）

xff08 1 xff09 Standard Application Frame Extend没有函数库 xff0c 只是定义了一些环境参数 xff0c 使得编译出来的程序能在32位的操作系统环境下运行 Windows和MFC的includ
在C++中使用openmp进行多线程编程

声明 xff1a 本文是基于Joel Yliluoma写的Guid into OpenMP Easy multithreading programming for C 43 43 而写的 xff0c 基本是按照自己的理解 xff0c 用自己
mysql去空格trim_mysql去空格函数trim

一 xff0c mysql去除左空格函数 xff1a ltrim str returns the string str with leading space characters removed 例子 xff1a 代码示例 mysql gt
计算机屏幕蓝光,电脑如何设置防蓝光？降低电脑屏幕蓝光危害的方法

如果使用电脑玩游戏或者处理文件 xff0c 长时间面对电脑屏幕会导致眼睛特别疲劳干涩 xff0c 时间久了还有可能会对眼睛造成一定的危害电脑屏幕中的蓝光会对眼睛造成伤害 xff0c 所以防电脑蓝光对于电脑日常使用非常重要大家可以参考下面
文件服务器存储,文件服务器存储

文件服务器存储内容精选换一换弹性文件服务与其他云服务的关系如图1所示 FTP SFTP连接适用于从线下文件服务器或ECS服务器上迁移文件到OBS或数据库当前仅支持Linux操作系统的FTP 服务器连接FTP或SFTP服务器时 xf
如何清服务器redis缓存信息,redis desktop manager怎么清空缓存?redis desktop manager清空Redis缓存的方法...

redis desktop manager是比较实用的一款Rdeis管理工具 xff0c 那么在redis desktop manager怎么清空缓存呢今日为你们带来的文章是关于redis desktop manager清空Redis缓存
服务器开启虚拟内存有用吗,服务器设置虚拟内存有用吗

服务器设置虚拟内存有用吗内容精选换一换开启弹性云服务器的虚拟内存后 xff0c 会导致硬盘I O性能下降 xff0c 因此 xff0c 平台提供的Windows弹性云服务器默认未配置虚拟内存如果弹性云服务器内存不足 xff0c 建议
bat管理mstsc 远程桌面连接

批量添加用户 64 echo off set 34 用户名文件 61 a txt 34 set 34 用户组名称 61 administrators 34 文件路径可以有空格 xff0c 但是不需要额外加 34 引号 for f 34 us
logback与Log4J的区别

2019独角兽企业重金招聘Python工程师标准 gt gt gt Logback和log4j是非常相似的 xff0c 如果你对log4j很熟悉 xff0c 那对logback很快就会得心应手下面列举了logback相对于log4j的一些
Spark-scala-API

1 sc version 2 集群对象 xff1a SparkContext xff1b 获得Spark集群的SparkContext对象 xff0c 是构造Spark应用的第一步 xff01 SparkContext对象代表整个 Spa

Spark-scala-API

Spark-scala-API 的相关文章

随机推荐

热门标签