Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Spark parquet 分区:大量文件
我正在尝试利用 Spark 分区 我试图做类似的事情 data write partitionBy key parquet location 这里的问题是每个分区都会创建大量镶木地板文件 如果我尝试从根目录读取 则会导致读取速度变慢 为了避
apachespark
apachesparksql
RDD
apachespark20
Bigdata
如何在 PySpark 数据框中创建动态组?
虽然问题是基于连续行的两个或多个列的值创建多个组 但我只是通过这种方式简化问题 假设有这样的 pyspark 数据框 gt gt gt df sqlContext createDataFrame Row SN 1 age 45 gender
scala
groupby
PySpark
apachesparksql
RDD
Spark 中的默认分区方案
当我执行以下命令时 scala gt val rdd sc parallelize List 1 2 3 4 3 6 4 partitionBy new HashPartitioner 10 persist rdd org apache s
apachespark
RDD
partitioning
从 takeOrdered 返回一个 RDD,而不是一个列表
我正在使用 pyspark 进行一些数据清理 一个非常常见的操作是获取文件的一小部分并将其导出以供检查 self spark context textFile old filepath filename takeOrdered 100 sa
python
apachespark
RDD
Apache Spark 转换:groupByKey、reduceByKey、aggregateByKey
这三个 Apache Spark 转换有点令人困惑 有什么方法可以确定何时使用哪一种以及何时避免使用哪一种 I think 官方指南 http spark apache org docs latest programming guide h
apachespark
RDD
修改 Spark RDD foreach 内的集合
我试图在迭代 RDD 的元素时向映射添加元素 我没有收到任何错误 但修改没有发生 直接添加或迭代其他集合一切正常 scala gt val myMap new collection mutable HashMap String String
scala
apachespark
RDD
为什么 Spark 在字数统计时速度很快? [复制]
这个问题在这里已经有答案了 测试用例 Spark 在 20 秒以上对 6G 数据进行字数统计 我明白映射减少 FP and stream编程模型 但无法弄清楚字数统计的速度如此惊人 我认为这种情况下是I O密集型计算 不可能在20秒以上扫描
parallelprocessing
Streaming
apachespark
Bigdata
RDD
将 Scala Iterable[tuple] 转换为 RDD
我有一个元组列表 String String Int Double 我想将其转换为 Spark RDD 一般来说 如何将 Scala Iterable a1 a2 a3 an 转换为 Spark RDD 有几种方法可以做到这一点 但最直接的
scala
apachespark
RDD
当 Spark 主内存无法容纳文件时,Spark 如何读取大文件(PB)
在这些情况下大文件会发生什么 1 Spark从NameNode获取数据的位置 Spark 是否会同时停止 因为根据 NameNode 的信息 数据大小太长 2 Spark按照datanode块大小对数据进行分区 但所有数据不能存储到主内存中
apachespark
RDD
Partition
Spark:Java 中 forEach 循环中的任务不可序列化异常
我正在尝试迭代 JavaPairRDD 并使用 JavaPairRDD 的键和值执行一些计算 然后将每个 JavaPair 的结果输出到处理后的数据 list 我已经尝试过的 将我在 lambda 函数内部使用的变量设为静态 make 方法
Java
apachespark
Lambda
RDD
访问 Scala 中可用但 PySpark 中不可用的依赖项
我正在尝试访问 RDD 的依赖项 在 Scala 中 这是一个非常简单的代码 scala gt val myRdd sc parallelize 0 to 9 groupBy 2 myRdd org apache spark rdd RDD
python
apachespark
RDD
如何使用RDD API反转reduceByKey的结果?
我有一个 key value 的 RDD 我将其转换为 key List value1 value2 value3 的 RDD 如下所示 val rddInit sc parallelize List 1 2 1 3 2 5 2 7 3 1
scala
apachespark
RDD
无法压缩分区数量不等的 RDD
现在我有3个这样的RDD rdd1 1 2 3 4 5 6 7 8 9 10 rdd2 11 12 13 14 rdd3 15 16 17 18 19 20 我想这样做 rdd1 zip rdd2 union rdd3 我想要的结果是这样的
apachespark
RDD
Spark中saveAsTextFile时如何命名文件?
在 Spark 版本 1 5 1 中另存为文本文件时 我使用 rdd saveAsTextFile
apachespark
PySpark
RDD
rdd后面的数字是什么意思
rdd后面括号里的数字是什么意思 RDD后面的数字是它的标识符 Welcome to version 2 3 0 Using Scala version 2 11 8 OpenJDK 64 Bit Server VM Java 1 8 0
apachespark
RDD
Apache Spark 中的 reduce() 与 Fold()
有什么区别reduce vs fold关于它们的技术实现 我知道他们的签名不同fold接受添加到每个分区输出的附加参数 即初始值 有人可以讲述这两个操作的用例吗 在考虑使用 0 的情况下哪个会表现更好fold 提前致谢 就性能而言 没有任何
scala
apachespark
RDD
reduce
fold
Spark中的cache()会改变RDD的状态还是创建一个新的RDD?
这个问题是我之前问题的后续问题如果我在 Spark 中缓存同一个 RDD 两次会发生什么 https stackoverflow com questions 36195105 what happens if i cache the same
Java
caching
apachespark
RDD
Spark 选择 RDD 中的最高值
原始数据集是 numbersofrating title avg rating newRDD 3 monster 4 4 minions 3D 5 我想在newRDD中选择前N个avg ratings 我使用以下代码 它有一个错误 sele
python
apachespark
RDD
可以使用reduceBykey来更改类型和组合值-Scala Spark吗?
在下面的代码中 我尝试组合值 val rdd org apache spark rdd RDD String Double sc parallelize List a 1 0 a 3 0 a 2 0 val reduceByKey rdd
scala
apachespark
RDD
如何在 Spark 中从文本文件创建 DataFrame
我在 HDFS 上有一个文本文件 我想将其转换为 Spark 中的数据帧 我正在使用 Spark 上下文加载文件 然后尝试从该文件生成各个列 val myFile sc textFile file txt val myFile1 myFil
scala
apachespark
DataFrame
apachesparksql
RDD
1
2
3
4
5
6
7
»