RDD

在 Apache Spark 中，是否可以为混洗 RDD 或联合分组 RDD 指定分区的首选位置？

对于 Spark 1 6 唯一支持自定义分区位置的 API 是在创建 RDD 时 Distribute a local Scala collection to form an RDD with one or more location pr

scala apachespark distributedcomputing RDD shuffle

在 PYSPARK 中运行收集时出错

我正在尝试将网站名称与 URL 分开例如如果 URL 是 www google com 则输出应为 google 我尝试了下面的代码除了最后一行 websites collect 之外一切正常我使用数据框来存储网站名称然后将其转

python apachespark PySpark RDD

Spark如何处理对象

为了测试 Spark 中的序列化异常我用两种方式编写了一个任务第一种方式 package examples import org apache spark SparkConf import org apache spark SparkC

serialization apachespark RDD

从 Spark RDD 中删除空分区

我正在从 HDFS 获取数据并将其存储在 Spark RDD 中 Spark根据HDFS块的数量创建分区的数量这会导致大量空分区这些空分区也会在管道传输过程中得到处理为了消除这种开销我想从 RDD 中过滤掉所有空分区我知道合并和重

Hadoop apachespark PySpark RDD

groupByKey 是否比 reduceByKey 更受青睐

我总是用reduceByKey当我需要对 RDD 中的数据进行分组时因为它在打乱数据之前执行映射端缩减这通常意味着更少的数据被打乱从而获得更好的性能即使当map端reduce函数收集了所有值并且没有实际减少数据量时我仍然使用red

apachespark RDD

如何在 PySpark 中展平嵌套列表？

我有一个 RDD 结构例如 rdd 1 2 3 4 5 6 7 8 9 10 我希望它变成 rdd 1 2 3 4 5 6 7 8 9 10 如何编写映射或归约函数才能使其正常工作例如你可以flatMap并使用列表理解 rdd flat

python apachespark RDD

使用 sc.textFile() 加载本地文件到 Spark

Question 如何使用 sc textFile 将文件从本地文件系统加载到 Spark 我需要改变什么吗 env变量另外当我在未安装 Hadoop 的 Windows 上尝试相同的操作时我遇到了相同的错误 Code gt val

scala apachespark Hadoop RDD

获取Spark RDD的一系列列

现在我的 RDD 中有 300 多列但我发现需要动态选择一系列列并将它们放入 LabledPoints 数据类型中作为 Spark 的新手我想知道是否有任何索引方式来选择 RDD 中的一系列列就像是temp data data 10

scala apachespark RDD

为什么 Spark 不允许映射端与数组键组合？

我正在使用 Spark 1 3 1 我很好奇为什么 Spark 不允许在映射端组合上使用数组键一片combineByKey function if keyClass isArray if mapSideCombine throw new

scala apachespark MapReduce RDD

在 RDD 方法/闭包中使用 SparkContext hadoop 配置，例如 foreachPartition

我正在使用 Spark 读取一堆文件详细说明它们然后将它们全部保存为序列文件我想要的是每个分区有 1 个序列文件所以我这样做了 SparkConf sparkConf new SparkConf setAppName writing

Java Hadoop apachespark RDD

Spark：java.io.IOException：设备上没有剩余空间

现在我正在学习如何使用spark 我有一段代码可以反转矩阵当矩阵的阶数很小例如100 时它可以工作但是当矩阵的阶数很大例如2000 时我有一个例外例如这 15 05 10 20 31 00 ERROR DiskBlockObjec

apachespark RDD

PySpark DataFrames - 无需转换为 Pandas 即可枚举的方法？

我有一个很大pyspark sql dataframe DataFrame名为 df 我需要某种枚举记录的方法因此能够访问具有特定索引的记录或选择具有索引范围的记录组在熊猫中我可以做 indexes 2 3 6 7 df inde

python apachespark Bigdata PySpark RDD

值reduceByKey不是org.apache.spark.rdd.RDD的成员

很伤心我的spark版本是2 1 1 Scala版本是2 11 import org apache spark SparkContext import com mufu wcsa component dimension Dimension

scala generics apachespark RDD traits

Spark 中的foldLeft 或foldRight 等效项？

在 Spark 的 RDD 和 DStream 中我们有 reduce 函数用于将整个 RDD 转换为一个元素然而 reduce 函数采用 T T gt T 然而如果我们想减少Scala中的列表我们可以使用foldLeft或fol

scala apachespark SparkStreaming fold RDD

Spark中如何按键对RDD进行分区？

鉴于 HashPartitioner 文档说 HashPartitioner 使用 Java 实现基于哈希的分区对象 hashCode 说我要分区DeviceData by its kind case class DeviceData k

scala apachespark RDD

如何从任务中打印累加器变量（似乎无需调用 value 方法即可“工作”）？

我知道从任务的角度来看当累加器变量在工作节点中执行时它们是只写的我对此做了一些测试我意识到我能够在任务中打印累加器值这里我正在初始化驱动程序中的累加器 scala gt val accum sc accumulator 123

scala apachespark RDD

05-分布式计算框架

目录一 MapReduce 1 简介 2 原理 2 1 基本概念 2 2 程序执行过程 2 3 作业运行模式二 Spark 1 简介 1 1 背景 1 2 概念 1 3 特点 2 原理 2 1 编程模型 2 2 运行模式 2 3 运行过

大数据入门 大数据 MapReduce 计算框架 RDD

spark学习7：RDD编程

1 目录 2 创建RDD 两种方式 2 1从文件系统加载 sc textFile 方法来加载文件数据并将文件数据转换为RDD 2 1 1 从本地文件加载数据 val rdd1 sc textFile file home hzp Docum

spark RDD

spark学习3：RDD运行原理

1 RDD设计背景为了解决 MapReduce的频繁磁盘IO开销序列化和反序列化的开销因为从磁盘读取数据转换为对象需要反序列化在对象落磁盘时候需要序列化 spark通过抽象的RDD对象和DAG图对数据读取流转进行优化最优方

spark RDD

RDD本地文件系统读入显示文件不存在fileNotExit

问题在从本地文件系统读入数据创建RDD时 xff0c 执行行动操作 xff0c 显示文件不存在解决方案从本地文件系统读入时 xff0c 需在所有节点的相同目录下存在该文件 xff0c 如读取文件在 file span class to

RDD fileNotExit 本地文件系统读入显示文件不存在