Spark常用API<Scala>

2023-05-16

概览
- 1.转换
- 2.动作
1.Transformation
- 1.1一个RDD进行转换操作
- 1.2 两个RDD的转换操作
- 1.3对一个Pair RDD进行转化操作
- 1.4对两个PairRDD进行转换操作
2.Action
- 2.1对一个RDD进行行动操作
- 2.2Pair RDD行动操作

概览

这里只有 Scala 的API，Java 与 Python 请看官方API。

1.转换

Transformation	概念翻译
map(func)	返回每个元素经过 func 方法处理后，所生成的新元素所组成的分布式数据集合(RDD)。
filter(func)	返回一个通过了方法 func 筛选的元素所组成的数据集合；func 返回 true，即代表通过筛选。
flatMap(func)	与 map 相似，不过每一个输入项能够被映射为0个或多个输出项(所以 func 应该返回一个Seq(队列) 而不是一个单项)。
mapPartitions(func)	与 map 相似，但是他是单独运行在 RDD 的每一个分区(块)上，所以假如 RDD 是类型 T 时，则 func 的类型必须为 Iterator<T> => Iterator<U> 。
mapPartitionsWithIndex(func)	与 mapPartitions 相似，但是会另外提供一个整数值代表分区的下标(index), 所以假如 RDD 是类型 T 时，func 的类型必须为 (Int, Iterator<T>) => Iterator<U>.
sample(withReplacement, fraction, seed)	第一参数是指明是否放回，第二个参数是抽取数量，第三个是随机种子。
union(otherDataset)	返回一个包含了源数据集和参数的新数据集
intersection(otherDataset)	返回一个元数据集与参数的相交之后的新的 RDD(就是交集)。
distinct([numTasks])	对数据集进行去重操作
groupByKey([numTasks])	当在一个(K,V)数据集上调用他，会返回一个 (K, Iterator<V>) 数据集。注意 :当你分组他们是为了在每个Key上聚合他们(比如求和或者平均值)，使用 reduceByKey 或者 aggregateByKey 将会收益到更高的性能。注意：输出的并发水平依赖于父 RDD 分区的个数。你能通过可选的 numTasks 参数设置不同的 task 数目。
reduceByKey(func, [numTasks])	当在一个(K,V)数据集上调用他时，将会返回一个在不同的key上进行了聚合了Value的新的 (K,V) 数据集，聚合的方式是使用 func 方法指定，且必须是 (V,V) => V 类型的。与 groupByKey 很像，reduce task 的个数是使用第二个可选参数指定的。
aggregateByKey(zeroValue)(seqOp, combOp, [NumTasks])	当在一个(K,V)类型的数据集上调用他时，他就会返回一个按照 key 来进行聚合后生成的 (K,U) 对，聚合的方式是通过提供一个合并方法和一个中立的“零”值来完成的。允许被聚合的 value 的类型与输入的 value 的类型不一样，这样可以禁止没必要的分配。和 groupByKey相似，reduce task 的个数是使用第二个可选参数指定的。
sortByKey([ascending],[numTasks])	在（K，V）类型上调用他以实现按 K 排序。返回排序后的键值对。使用第一参数（boolean）值来决定是否为升序。
join(otherDataset, [numTasks])	通过该方法可以按照 K 来将源数据集合与另一数据集合进行 join 操作。(K, V) 和 (K, W) join结果就是 (K,(V,W))。outer join 就直接使用 leftOuterJoin，rightOuterJoin，fullOuterJoin 。
cogroup(otherDataset,[numTasks])	当在 (K, V) 类型与 (K, W)类型调用该方法时，会返回一个元祖 (K, (Iterable<V>, Iterable<W>)) 。也可以使用 groupWith 来调用。
cartesian(otherDataset)	当在 T 类型与 U类型的数据集上调用他，就返回一个 (T,U) 类型的数据集(所有元素组成的键值对)。
pipe(command,[envVars])	通过 shell 命令将 RDD 的每个分区进行导流， RDD 元素就可以写入到进程的 stdin(标准输入) ，也可以按照字符串的形式将其来按行输出的 stdout(标准输入)
repatition(numPartitions)	通过重新修改 partition 的个数来对 RDD 中的数据重新进行洗牌，以平衡分区。他总是对网络上的所有数据进行重洗。

2.动作

Action	用法
reduce(func)	使用一个 func 来聚合一个数据集，方法应该为两个参数，一个返回值。这个方法必须能够翻转与连接，以至于能够在并发运行时的计算是正确的。
collect()	以数组的形式返回在驱动器上的数据集的所有元素。当一个过滤器或者其他操作返回了一个小的子集时，使用这个方法会变得非常高效。
first()	返回数据集行的第一个元素。
take(n)	以数组的形式返回数据集上的前 n 个元素。
takeSample(withReplacement, num, [seed])	返回抽样后的数据组成的数组，第一个参数是时候放回取样，第二个就是取样的个数，第三个可选的参数是取样种子。
takeOrdered(n, [ordering])	返回 RDD 排序后的前 n 个元素。排序方式要么就使用原生的排序方式，要么使用自定义的比较器排序，使用第二个可选参数传入。
saveAsTextFile(path)	将数据集中的元素写成一个文本文件，或者多个文本问价，参数就是文件路径，可以写在本地文件系统，HDFS，或者其他 Hadoop 支持的文件系统中。Spark 会在每一个元素上调用 toString 方法，转成文本文件中的一行文本。
saveAsSequenceFile(path) --Java and Scala	就是将 RDD 中的元素写成 Hadoop SequenceFile到本地文件系统，HDFS，或者其他 Hadoop 支持的文件系统。且 RDDs 中可用的的键值对必须实现 Hadoop 的 Writable 接口。在 Scala 中，也有许多可用的能够隐含的转型为 Writable 的类型，例如 Int， Double， String。
savaAsObjectFile(path) --Java and Scala	使用 Java 简单的序列化方式，将 RDD 中的元素进行序列化。可以使用 SparkContext.objectFile() 方法来加载。
countByKey()	按照数据集中的 Key 进行分组，计算各个 K 的对应的个数。（K,V）返回 (K,Int)
foreach(func)	在数据集上的每个元素上运行 func 方法。上面提到了。

1.Transformation

主要做的是就是将一个已有的RDD生成另外一个RDD。Transformation具有lazy特性(延迟加载)。Transformation算子的代码不会真正被执行。只有当我们的程序里面遇到一个action算子的时候，代码才会真正的被执行对

1.1一个RDD进行转换操作

函数名	描述
filter()	返回一个由通过传给filter()的函数的元素组成的RDD
flatMap()	将函数应用于RDD的每个元素，将返回的迭代器的所有内容构成新的RDD
map()	将函数应用于RDD中的每个元素，将返回值构成新的RDD
distinct()	去重
sample(withReplacement,<br />fraction, [seed])	对RDD进行采样，以及是否替换

举例：对一个数组为{1, 2, 3, 3}的RDD进行基本的RDD转化操作

函数名	含义	示例	结果
map(func)	返回一个新的RDD，该RDD由每一个输入元素经过func函数转换后组成	rdd.map(x => x + 1)	{2, 3, 4, 4}
flatMap（）	将函数应用于RDD 中的每个元素，将返回的迭代器的所有内容构成新的RDD。通常用来切分单词	rdd.flatMap(x => x.to(3))	{1, 2, 3, 2, 3, 3, 3}
`parallelize（）`	使用已经存在的迭代器或者集合通过调用spark驱动程序提供的parallelize函数来创建并行集合	`JavaRDD<String> rdd = jsc.parallelize(Arrays.asList("haimie","jojo"));`
filter()	返回一个由通过传给filter()的函数的元素组成的RDD	rdd.filter(x->x!=1)	{2,3,3,}
distinct()	去重	rdd.distinct()	{1,2,3}
sample(s,faraction,[seed])	对RDD采样，以及是否替换	rdd.sample(false,0.5)	非确定的

1.2 两个RDD的转换操作

对数据分别为{1, 2, 3}和{3, 4, 5}的RDD进行针对两个RDD的转化操作

函数名	含义	示例	结果
union()	生成一个包含两个RDD中所有元素的RDD	rdd.unino(other)	{1,2,3,3,4,5}
intersection()	求两个RDD共同的元素的RDD	rdd.intersection(other)	{3}
substract()	移除一个RDD中的内容	rdd.subtract(other)	{1,2}
cartesian()	与另一个RDD的笛卡尔积	rdd.cartesian(other)	{(1,3),(1,4),(1,5),(2,3),(2,4),(2,5),(3,3),(3,4).(3,5)}

1.3对一个Pair RDD进行转化操作

val pairRDD = sc.parallelize(List((1, 2), (3, 4), (3, 6)))

val pairRDD1 = sc.parallelize(List((3, 5)))

函数名	描述	示例	结果
reduceByKey(func)	合并具有相同键的值	val rdd6 = pairRDD.reduceByKey((x, y) => x + y)	Array((1,2), (3,10))
groupByKey()	对具有相同键的值进行分组	pairRDD.groupByKey()	Array((1,CompactBuffer(2)), (3,CompactBuffer(4, 6)))
combineByKey()	使用不同的返回类型合并具有相同键的值	pairRDD.combineByKey( (v) => (v, 1), (acc: (Int, Int), v) => (acc._1 + v, acc._2 + 1), (acc1: (Int, Int), acc2: (Int, Int)) => (acc1._1 + acc2._1, acc1._2 + acc2._2) )	Array((1,(2,1)), (3,(10,2)))
mapValues(func)	原RDD中的Key保持不变，与新的Value一起组成新的RDD中的元素。因此，该函数只适用于元素为KV对的RDD。	val a = sc.parallelize(List("dog", "tiger", "lion", "cat", "panther", " eagle"), 2) val b = a.map(x => (x.length, x)) b.mapValues("x" + _ + "x").collect //"x" + _ + "x"等同于everyInput =>"x" + everyInput + "x"	Array( (3,xdogx), (5,xtigerx), (4,xlionx), (3,xcatx), (7,xpantherx), (5,xeaglex) )
flatMapValues(func)	对Pair RDD中的每个值应用一个返回迭代器的函数, 然后对返回的每个元素都生辰给一个对应原键的键值对记录	val a = sc.parallelize(List((1,2),(3,4),(5,6))) val b = a.flatMapValues(x=>1 to x) b.collect.foreach(println(_))	(1,1) (1,2) (3,1) (3,2) (3,3) (3,4) (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
keys()	返回一个仅包含键的RDD	pairRDD.keys	Array(1, 3, 3)
values()	返回一个仅包含值的RDD	pairRDD.Values	Array(2, 4, 6)
sortByKey()	返回一个根据键排序的RDD	pairRDD.sortByKey()	Array((1,2), (3,4), (3,6))

https://yq.aliyun.com/articles/674009

mapValues

map

val a = sc.parallelize(1 to 9, 3)

val b = a.map(x => x*2)//x => x*2是一个函数，x是传入参数即RDD的每个元素，x*2是返回值

a.collect

//结果Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9)

b.collect

//结果Array[Int] = Array(2, 4, 6, 8, 10, 12, 14, 16, 18)

通过map把数据变成k-v

val a = sc.parallelize(List("dog", "tiger", "lion", "cat", "panther", " eagle"), 2)

val b = a.map(x => (x, 1))

b.collect.foreach(println(_))

/*

(dog,1)

(tiger,1)

(lion,1)

(cat,1)

(panther,1)

( eagle,1)

1.4对两个PairRDD进行转换操作

函数	描述	示例	结果
subtractByKey	删除RDD中键与other中的键相同的元素	pairRDD.subtract(pairRDD1)	Array((3,6), (3,4), (1,2))
join	对两个rdd进行内连接
rightOuterJoin	对两个RDD进行连接操作，确保第一个RDD的键必须存在
leftOuterJoin	对两个RDD进行连接操作，确保第二个RDD的键必须存在
cogroup	将两个RDD中拥有相同键的数据分组到一起

折叠源码

// join: 对两个RDD进行内连接

var rdd13 = pairRDD.join(pairRDD1)

// rightOuterJoin: 对两个RDD进行连接操作，确保第一个RDD的键必须存在

var rdd14 = pairRDD.rightOuterJoin(pairRDD1)

// leftOuterJoin: 对两个RDD进行连接操作，确保第二个RDD的键必须存在

var rdd15 = pairRDD.leftOuterJoin(pairRDD1)

// cogroup: 将两个RDD中拥有相同键的数据分组到一起

var rdd16 = pairRDD.cogroup(pairRDD1)

结果

scala> rdd13.collect

res32: Array[(Int, (Int, Int))] = Array((3,(4,5)), (3,(6,5)))

scala> rdd14.collect

res33: Array[(Int, (Option[Int], Int))] = Array((3,(Some(4),5)), (3,(Some(6),5)))

scala> rdd15.collect

res34: Array[(Int, (Int, Option[Int]))] = Array((1,(2,None)), (3,(4,Some(5))), (3,(6,Some(5))))

scala> rdd16.collect

res35: Array[(Int, (Iterable[Int], Iterable[Int]))] = Array((1,(CompactBuffer(2),CompactBuffer())), (3,(CompactBuffer(4, 6),CompactBuffer(5))))

2.Action

2.1对一个RDD进行行动操作

函数名	描述
collect()	返回RDD中的所有元素
count()	返回RDD中的元素个数
countByValue()	各元素在RDD中出现的次数
take(num)	从RDD中返回num个元素
top(num)	从RDD中返回最前面的num个元素
takeOrdered(num)(ordering)	从RDD中按照顺序返回最前面的num个元素
takeSample(withReplacement,<br /> num, [seed])	从RDD中返回任意一些元素
reduce(func)	并行整合RDD中所有数据
flod(zero)(func)	和reduce一样，但是需要提供初始值
aggregate(zeroValue)(seqOp, comOp)	和reduce一样，但是通常返回不同类型的函数
foreach(func)	对RDD中的每个元素使用给定的函数

举例

val rdd = sc.parallelize(List(1, 2, 3, 3))

// collect：返回RDD中的所有元素

rdd.collect()

// count：返回RDD中的元素个数

rdd.count()

// countByValue：返回个元素在RDD中出现的次数

rdd.countByValue()

// take：从RDD中返回2个元素

rdd.take(2)

// top：从RDD中返回最前面的2个元素

val x = rdd.top(2)

// takeOrdered：从RDD中按照提供的顺序返回最前面的2个元素

rdd.takeOrdered(2)

object Ord extends Ordering[Int] {

override def compare(x: Int, y: Int): Int = {

if (x < y) 1 else -1;

}

val pa = sc.parallelize(Array(1, 2, 3, 4, 5, 6))

pa.takeOrdered(3)(Ord)

// foreach(func)：对RDD中的每个元素使用给定的函数

rdd.foreach(println)

结果：

scala> val rdd = sc.parallelize(List(1, 2, 3, 3))

rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[37] at parallelize at <console>:24

scala> rdd.collect()

res18: Array[Int] = Array(1, 2, 3, 3)

scala> rdd.count()

res19: Long = 4

scala> rdd.countByValue()

res20: scala.collection.Map[Int,Long] = Map(1 -> 1, 2 -> 1, 3 -> 2)

scala> rdd.take(2)

res21: Array[Int] = Array(1, 2)

scala> val x = rdd.top(2)

x: Array[Int] = Array(3, 3)

scala> rdd.takeOrdered(2)

res22: Array[Int] = Array(1, 2)

scala> object Ord extends Ordering[Int] {

| override def compare(x: Int, y: Int): Int = {

| if (x < y) 1 else -1;

| }

defined object Ord

scala> val pa = sc.parallelize(Array(1, 2, 3, 4, 5, 6))

pa: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[43] at parallelize at <console>:24

scala> pa.takeOrdered(3)(Ord)

res23: Array[Int] = Array(6, 5, 4)

scala> rdd.foreach(println)

2

1

3

2.2Pair RDD行动操作

函数名	描述
countByKey()	对每个键对应的元素分别计数
collectAsMap()	将结果以映射表的形式返回，以便查询
lookup(key)	返回给定键对应的所有值

// countByValue: 对每个键对应的元素分别计数

pairRDD.countByValue()

// collectAsMap: 将结果以映射表的形式返回，以便查询

pairRDD.collectAsMap()

// lookup: 返回指定键对应的所有值

pairRDD.lookup(3)

scala> pairRDD.countByValue()

res36: scala.collection.Map[(Int, Int),Long] = Map((3,6) -> 1, (3,4) -> 1, (1,2) -> 1)

scala> pairRDD.collectAsMap()

res37: scala.collection.Map[Int,Int] = Map(1 -> 2, 3 -> 6)

scala> pairRDD.lookup(3)

res38: Seq[Int] = WrappedArray(4, 6)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)