RDD

使用 Python 计算 Spark 中成对 (K,V) RDD 中每个 KEY 的平均值

我想与 Python 共享这个特定的 Apache Spark 解决方案因为它的文档非常贫乏我想通过 KEY 计算 K V 对存储在 Pairwise RDD 中的平均值示例数据如下所示 gt gt gt rdd1 take 10

python apachespark Aggregate Average RDD

HashPartitioner 是如何工作的？

我阅读了文档HashPartitioner http spark apache org docs 1 3 1 api java index html org apache spark HashPartitioner html 不幸的是除了

scala apachespark RDD partitioning

使用 pyspark 计算所有可能的单词对

我有一个文本文档我需要找到整个文档中重复单词对的可能数量例如我有下面的word文档该文档有两行每行用分隔文档 My name is Sam My name is Sam My name is Sam My name is Sa

python apachespark PySpark RDD

对于“迭代算法”，转换为 RDD 然后再转换回 Dataframe 有什么优势

我在读高性能火花作者提出以下主张虽然 Catalyst 优化器非常强大但它目前遇到挑战的情况之一是非常大的查询计划这些查询计划往往是迭代算法的结果例如图算法或机器学习算法一个简单的解决方法是将数据转换为 RDD 并在每次迭代结束时

apachespark apachesparksql RDD catalystoptimizer

Spark parquet 分区：大量文件

我正在尝试利用 Spark 分区我试图做类似的事情 data write partitionBy key parquet location 这里的问题是每个分区都会创建大量镶木地板文件如果我尝试从根目录读取则会导致读取速度变慢为了避

apachespark apachesparksql RDD apachespark20 Bigdata

如何在 PySpark 数据框中创建动态组？

虽然问题是基于连续行的两个或多个列的值创建多个组但我只是通过这种方式简化问题假设有这样的 pyspark 数据框 gt gt gt df sqlContext createDataFrame Row SN 1 age 45 gender

scala groupby PySpark apachesparksql RDD

Spark 中的默认分区方案

当我执行以下命令时 scala gt val rdd sc parallelize List 1 2 3 4 3 6 4 partitionBy new HashPartitioner 10 persist rdd org apache s

apachespark RDD partitioning

从 takeOrdered 返回一个 RDD，而不是一个列表

我正在使用 pyspark 进行一些数据清理一个非常常见的操作是获取文件的一小部分并将其导出以供检查 self spark context textFile old filepath filename takeOrdered 100 sa

python apachespark RDD

Apache Spark 转换：groupByKey、reduceByKey、aggregateByKey

这三个 Apache Spark 转换有点令人困惑有什么方法可以确定何时使用哪一种以及何时避免使用哪一种 I think 官方指南 http spark apache org docs latest programming guide h

apachespark RDD

修改 Spark RDD foreach 内的集合

我试图在迭代 RDD 的元素时向映射添加元素我没有收到任何错误但修改没有发生直接添加或迭代其他集合一切正常 scala gt val myMap new collection mutable HashMap String String

scala apachespark RDD

为什么 Spark 在字数统计时速度很快？ [复制]

这个问题在这里已经有答案了测试用例 Spark 在 20 秒以上对 6G 数据进行字数统计我明白映射减少 FP and stream编程模型但无法弄清楚字数统计的速度如此惊人我认为这种情况下是I O密集型计算不可能在20秒以上扫描

parallelprocessing Streaming apachespark Bigdata RDD

将 Scala Iterable[tuple] 转换为 RDD

我有一个元组列表 String String Int Double 我想将其转换为 Spark RDD 一般来说如何将 Scala Iterable a1 a2 a3 an 转换为 Spark RDD 有几种方法可以做到这一点但最直接的

scala apachespark RDD

当 Spark 主内存无法容纳文件时，Spark 如何读取大文件（PB）

在这些情况下大文件会发生什么 1 Spark从NameNode获取数据的位置 Spark 是否会同时停止因为根据 NameNode 的信息数据大小太长 2 Spark按照datanode块大小对数据进行分区但所有数据不能存储到主内存中

apachespark RDD Partition

Spark：Java 中 forEach 循环中的任务不可序列化异常

我正在尝试迭代 JavaPairRDD 并使用 JavaPairRDD 的键和值执行一些计算然后将每个 JavaPair 的结果输出到处理后的数据 list 我已经尝试过的将我在 lambda 函数内部使用的变量设为静态 make 方法

Java apachespark Lambda RDD

访问 Scala 中可用但 PySpark 中不可用的依赖项

我正在尝试访问 RDD 的依赖项在 Scala 中这是一个非常简单的代码 scala gt val myRdd sc parallelize 0 to 9 groupBy 2 myRdd org apache spark rdd RDD

python apachespark RDD

如何使用RDD API反转reduceByKey的结果？

我有一个 key value 的 RDD 我将其转换为 key List value1 value2 value3 的 RDD 如下所示 val rddInit sc parallelize List 1 2 1 3 2 5 2 7 3 1

scala apachespark RDD

无法压缩分区数量不等的 RDD

现在我有3个这样的RDD rdd1 1 2 3 4 5 6 7 8 9 10 rdd2 11 12 13 14 rdd3 15 16 17 18 19 20 我想这样做 rdd1 zip rdd2 union rdd3 我想要的结果是这样的

apachespark RDD

Spark中saveAsTextFile时如何命名文件？

在 Spark 版本 1 5 1 中另存为文本文件时我使用 rdd saveAsTextFile

apachespark PySpark RDD

rdd后面的数字是什么意思

rdd后面括号里的数字是什么意思 RDD后面的数字是它的标识符 Welcome to version 2 3 0 Using Scala version 2 11 8 OpenJDK 64 Bit Server VM Java 1 8 0

apachespark RDD

Apache Spark 中的 reduce() 与 Fold()

有什么区别reduce vs fold关于它们的技术实现我知道他们的签名不同fold接受添加到每个分区输出的附加参数即初始值有人可以讲述这两个操作的用例吗在考虑使用 0 的情况下哪个会表现更好fold 提前致谢就性能而言没有任何

scala apachespark RDD reduce fold