Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
使用 Python 计算 Spark 中成对 (K,V) RDD 中每个 KEY 的平均值
我想与 Python 共享这个特定的 Apache Spark 解决方案 因为它的文档非常贫乏 我想通过 KEY 计算 K V 对 存储在 Pairwise RDD 中 的平均值 示例数据如下所示 gt gt gt rdd1 take 10
python
apachespark
Aggregate
Average
RDD
HashPartitioner 是如何工作的?
我阅读了文档HashPartitioner http spark apache org docs 1 3 1 api java index html org apache spark HashPartitioner html 不幸的是 除了
scala
apachespark
RDD
partitioning
使用 pyspark 计算所有可能的单词对
我有一个文本文档 我需要找到整个文档中重复单词对的可能数量 例如 我有下面的word文档 该文档有两行 每行用 分隔 文档 My name is Sam My name is Sam My name is Sam My name is Sa
python
apachespark
PySpark
RDD
对于“迭代算法”,转换为 RDD 然后再转换回 Dataframe 有什么优势
我在读高性能火花作者提出以下主张 虽然 Catalyst 优化器非常强大 但它目前遇到挑战的情况之一是非常大的查询计划 这些查询计划往往是迭代算法的结果 例如图算法或机器学习算法 一个简单的解决方法是将数据转换为 RDD 并在每次迭代结束时
apachespark
apachesparksql
RDD
catalystoptimizer
Spark parquet 分区:大量文件
我正在尝试利用 Spark 分区 我试图做类似的事情 data write partitionBy key parquet location 这里的问题是每个分区都会创建大量镶木地板文件 如果我尝试从根目录读取 则会导致读取速度变慢 为了避
apachespark
apachesparksql
RDD
apachespark20
Bigdata
如何在 PySpark 数据框中创建动态组?
虽然问题是基于连续行的两个或多个列的值创建多个组 但我只是通过这种方式简化问题 假设有这样的 pyspark 数据框 gt gt gt df sqlContext createDataFrame Row SN 1 age 45 gender
scala
groupby
PySpark
apachesparksql
RDD
Spark 中的默认分区方案
当我执行以下命令时 scala gt val rdd sc parallelize List 1 2 3 4 3 6 4 partitionBy new HashPartitioner 10 persist rdd org apache s
apachespark
RDD
partitioning
从 takeOrdered 返回一个 RDD,而不是一个列表
我正在使用 pyspark 进行一些数据清理 一个非常常见的操作是获取文件的一小部分并将其导出以供检查 self spark context textFile old filepath filename takeOrdered 100 sa
python
apachespark
RDD
Apache Spark 转换:groupByKey、reduceByKey、aggregateByKey
这三个 Apache Spark 转换有点令人困惑 有什么方法可以确定何时使用哪一种以及何时避免使用哪一种 I think 官方指南 http spark apache org docs latest programming guide h
apachespark
RDD
修改 Spark RDD foreach 内的集合
我试图在迭代 RDD 的元素时向映射添加元素 我没有收到任何错误 但修改没有发生 直接添加或迭代其他集合一切正常 scala gt val myMap new collection mutable HashMap String String
scala
apachespark
RDD
为什么 Spark 在字数统计时速度很快? [复制]
这个问题在这里已经有答案了 测试用例 Spark 在 20 秒以上对 6G 数据进行字数统计 我明白映射减少 FP and stream编程模型 但无法弄清楚字数统计的速度如此惊人 我认为这种情况下是I O密集型计算 不可能在20秒以上扫描
parallelprocessing
Streaming
apachespark
Bigdata
RDD
将 Scala Iterable[tuple] 转换为 RDD
我有一个元组列表 String String Int Double 我想将其转换为 Spark RDD 一般来说 如何将 Scala Iterable a1 a2 a3 an 转换为 Spark RDD 有几种方法可以做到这一点 但最直接的
scala
apachespark
RDD
当 Spark 主内存无法容纳文件时,Spark 如何读取大文件(PB)
在这些情况下大文件会发生什么 1 Spark从NameNode获取数据的位置 Spark 是否会同时停止 因为根据 NameNode 的信息 数据大小太长 2 Spark按照datanode块大小对数据进行分区 但所有数据不能存储到主内存中
apachespark
RDD
Partition
Spark:Java 中 forEach 循环中的任务不可序列化异常
我正在尝试迭代 JavaPairRDD 并使用 JavaPairRDD 的键和值执行一些计算 然后将每个 JavaPair 的结果输出到处理后的数据 list 我已经尝试过的 将我在 lambda 函数内部使用的变量设为静态 make 方法
Java
apachespark
Lambda
RDD
访问 Scala 中可用但 PySpark 中不可用的依赖项
我正在尝试访问 RDD 的依赖项 在 Scala 中 这是一个非常简单的代码 scala gt val myRdd sc parallelize 0 to 9 groupBy 2 myRdd org apache spark rdd RDD
python
apachespark
RDD
如何使用RDD API反转reduceByKey的结果?
我有一个 key value 的 RDD 我将其转换为 key List value1 value2 value3 的 RDD 如下所示 val rddInit sc parallelize List 1 2 1 3 2 5 2 7 3 1
scala
apachespark
RDD
无法压缩分区数量不等的 RDD
现在我有3个这样的RDD rdd1 1 2 3 4 5 6 7 8 9 10 rdd2 11 12 13 14 rdd3 15 16 17 18 19 20 我想这样做 rdd1 zip rdd2 union rdd3 我想要的结果是这样的
apachespark
RDD
Spark中saveAsTextFile时如何命名文件?
在 Spark 版本 1 5 1 中另存为文本文件时 我使用 rdd saveAsTextFile
apachespark
PySpark
RDD
rdd后面的数字是什么意思
rdd后面括号里的数字是什么意思 RDD后面的数字是它的标识符 Welcome to version 2 3 0 Using Scala version 2 11 8 OpenJDK 64 Bit Server VM Java 1 8 0
apachespark
RDD
Apache Spark 中的 reduce() 与 Fold()
有什么区别reduce vs fold关于它们的技术实现 我知道他们的签名不同fold接受添加到每个分区输出的附加参数 即初始值 有人可以讲述这两个操作的用例吗 在考虑使用 0 的情况下哪个会表现更好fold 提前致谢 就性能而言 没有任何
scala
apachespark
RDD
reduce
fold
1
2
3
4
5
6
...8
»