RDD

Spark parquet 分区：大量文件

我正在尝试利用 Spark 分区我试图做类似的事情 data write partitionBy key parquet location 这里的问题是每个分区都会创建大量镶木地板文件如果我尝试从根目录读取则会导致读取速度变慢为了避

apachespark apachesparksql RDD apachespark20 Bigdata

如何在 PySpark 数据框中创建动态组？

虽然问题是基于连续行的两个或多个列的值创建多个组但我只是通过这种方式简化问题假设有这样的 pyspark 数据框 gt gt gt df sqlContext createDataFrame Row SN 1 age 45 gender

scala groupby PySpark apachesparksql RDD

Spark 中的默认分区方案

当我执行以下命令时 scala gt val rdd sc parallelize List 1 2 3 4 3 6 4 partitionBy new HashPartitioner 10 persist rdd org apache s

apachespark RDD partitioning

从 takeOrdered 返回一个 RDD，而不是一个列表

我正在使用 pyspark 进行一些数据清理一个非常常见的操作是获取文件的一小部分并将其导出以供检查 self spark context textFile old filepath filename takeOrdered 100 sa

python apachespark RDD

Apache Spark 转换：groupByKey、reduceByKey、aggregateByKey

这三个 Apache Spark 转换有点令人困惑有什么方法可以确定何时使用哪一种以及何时避免使用哪一种 I think 官方指南 http spark apache org docs latest programming guide h

apachespark RDD

修改 Spark RDD foreach 内的集合

我试图在迭代 RDD 的元素时向映射添加元素我没有收到任何错误但修改没有发生直接添加或迭代其他集合一切正常 scala gt val myMap new collection mutable HashMap String String

scala apachespark RDD

为什么 Spark 在字数统计时速度很快？ [复制]

这个问题在这里已经有答案了测试用例 Spark 在 20 秒以上对 6G 数据进行字数统计我明白映射减少 FP and stream编程模型但无法弄清楚字数统计的速度如此惊人我认为这种情况下是I O密集型计算不可能在20秒以上扫描

parallelprocessing Streaming apachespark Bigdata RDD

将 Scala Iterable[tuple] 转换为 RDD

我有一个元组列表 String String Int Double 我想将其转换为 Spark RDD 一般来说如何将 Scala Iterable a1 a2 a3 an 转换为 Spark RDD 有几种方法可以做到这一点但最直接的

scala apachespark RDD

当 Spark 主内存无法容纳文件时，Spark 如何读取大文件（PB）

在这些情况下大文件会发生什么 1 Spark从NameNode获取数据的位置 Spark 是否会同时停止因为根据 NameNode 的信息数据大小太长 2 Spark按照datanode块大小对数据进行分区但所有数据不能存储到主内存中

apachespark RDD Partition

Spark：Java 中 forEach 循环中的任务不可序列化异常

我正在尝试迭代 JavaPairRDD 并使用 JavaPairRDD 的键和值执行一些计算然后将每个 JavaPair 的结果输出到处理后的数据 list 我已经尝试过的将我在 lambda 函数内部使用的变量设为静态 make 方法

Java apachespark Lambda RDD

访问 Scala 中可用但 PySpark 中不可用的依赖项

我正在尝试访问 RDD 的依赖项在 Scala 中这是一个非常简单的代码 scala gt val myRdd sc parallelize 0 to 9 groupBy 2 myRdd org apache spark rdd RDD

python apachespark RDD

如何使用RDD API反转reduceByKey的结果？

我有一个 key value 的 RDD 我将其转换为 key List value1 value2 value3 的 RDD 如下所示 val rddInit sc parallelize List 1 2 1 3 2 5 2 7 3 1

scala apachespark RDD

无法压缩分区数量不等的 RDD

现在我有3个这样的RDD rdd1 1 2 3 4 5 6 7 8 9 10 rdd2 11 12 13 14 rdd3 15 16 17 18 19 20 我想这样做 rdd1 zip rdd2 union rdd3 我想要的结果是这样的

apachespark RDD

Spark中saveAsTextFile时如何命名文件？

在 Spark 版本 1 5 1 中另存为文本文件时我使用 rdd saveAsTextFile

apachespark PySpark RDD

rdd后面的数字是什么意思

rdd后面括号里的数字是什么意思 RDD后面的数字是它的标识符 Welcome to version 2 3 0 Using Scala version 2 11 8 OpenJDK 64 Bit Server VM Java 1 8 0

apachespark RDD

Apache Spark 中的 reduce() 与 Fold()

有什么区别reduce vs fold关于它们的技术实现我知道他们的签名不同fold接受添加到每个分区输出的附加参数即初始值有人可以讲述这两个操作的用例吗在考虑使用 0 的情况下哪个会表现更好fold 提前致谢就性能而言没有任何

scala apachespark RDD reduce fold

Spark中的cache()会改变RDD的状态还是创建一个新的RDD？

这个问题是我之前问题的后续问题如果我在 Spark 中缓存同一个 RDD 两次会发生什么 https stackoverflow com questions 36195105 what happens if i cache the same

Java caching apachespark RDD

Spark 选择 RDD 中的最高值

原始数据集是 numbersofrating title avg rating newRDD 3 monster 4 4 minions 3D 5 我想在newRDD中选择前N个avg ratings 我使用以下代码它有一个错误 sele

python apachespark RDD

可以使用reduceBykey来更改类型和组合值-Scala Spark吗？

在下面的代码中我尝试组合值 val rdd org apache spark rdd RDD String Double sc parallelize List a 1 0 a 3 0 a 2 0 val reduceByKey rdd

scala apachespark RDD

如何在 Spark 中从文本文件创建 DataFrame

我在 HDFS 上有一个文本文件我想将其转换为 Spark 中的数据帧我正在使用 Spark 上下文加载文件然后尝试从该文件生成各个列 val myFile sc textFile file txt val myFile1 myFil

scala apachespark DataFrame apachesparksql RDD