Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
在 Apache Spark 中,是否可以为混洗 RDD 或联合分组 RDD 指定分区的首选位置?
对于 Spark 1 6 唯一支持自定义分区位置的 API 是在创建 RDD 时 Distribute a local Scala collection to form an RDD with one or more location pr
scala
apachespark
distributedcomputing
RDD
shuffle
在 PYSPARK 中运行收集时出错
我正在尝试将网站名称与 URL 分开 例如 如果 URL 是 www google com 则输出应为 google 我尝试了下面的代码 除了最后一行 websites collect 之外 一切正常 我使用数据框来存储网站名称 然后将其转
python
apachespark
PySpark
RDD
Spark如何处理对象
为了测试 Spark 中的序列化异常 我用两种方式编写了一个任务 第一种方式 package examples import org apache spark SparkConf import org apache spark SparkC
serialization
apachespark
RDD
从 Spark RDD 中删除空分区
我正在从 HDFS 获取数据并将其存储在 Spark RDD 中 Spark根据HDFS块的数量创建分区的数量 这会导致大量空分区 这些空分区也会在管道传输过程中得到处理 为了消除这种开销 我想从 RDD 中过滤掉所有空分区 我知道合并和重
Hadoop
apachespark
PySpark
RDD
groupByKey 是否比 reduceByKey 更受青睐
我总是用reduceByKey当我需要对 RDD 中的数据进行分组时 因为它在打乱数据之前执行映射端缩减 这通常意味着更少的数据被打乱 从而获得更好的性能 即使当map端reduce函数收集了所有值并且没有实际减少数据量时 我仍然使用red
apachespark
RDD
如何在 PySpark 中展平嵌套列表?
我有一个 RDD 结构 例如 rdd 1 2 3 4 5 6 7 8 9 10 我希望它变成 rdd 1 2 3 4 5 6 7 8 9 10 如何编写映射或归约函数才能使其正常工作 例如你可以flatMap并使用列表理解 rdd flat
python
apachespark
RDD
使用 sc.textFile() 加载本地文件到 Spark
Question 如何使用 sc textFile 将文件从本地文件系统加载到 Spark 我需要改变什么吗 env变量 另外 当我在未安装 Hadoop 的 Windows 上尝试相同的操作时 我遇到了相同的错误 Code gt val
scala
apachespark
Hadoop
RDD
获取Spark RDD的一系列列
现在我的 RDD 中有 300 多列 但我发现需要动态选择一系列列并将它们放入 LabledPoints 数据类型中 作为 Spark 的新手 我想知道是否有任何索引方式来选择 RDD 中的一系列列 就像是temp data data 10
scala
apachespark
RDD
为什么 Spark 不允许映射端与数组键组合?
我正在使用 Spark 1 3 1 我很好奇为什么 Spark 不允许在映射端组合上使用数组键 一片combineByKey function if keyClass isArray if mapSideCombine throw new
scala
apachespark
MapReduce
RDD
在 RDD 方法/闭包中使用 SparkContext hadoop 配置,例如 foreachPartition
我正在使用 Spark 读取一堆文件 详细说明它们 然后将它们全部保存为序列文件 我想要的是每个分区有 1 个序列文件 所以我这样做了 SparkConf sparkConf new SparkConf setAppName writing
Java
Hadoop
apachespark
RDD
Spark:java.io.IOException:设备上没有剩余空间
现在我正在学习如何使用spark 我有一段代码可以反转矩阵 当矩阵的阶数很小 例如100 时它可以工作 但是当矩阵的阶数很大 例如2000 时我有一个例外 例如这 15 05 10 20 31 00 ERROR DiskBlockObjec
apachespark
RDD
PySpark DataFrames - 无需转换为 Pandas 即可枚举的方法?
我有一个很大pyspark sql dataframe DataFrame名为 df 我需要某种枚举记录的方法 因此 能够访问具有特定索引的记录 或选择具有索引范围的记录组 在熊猫中 我可以做 indexes 2 3 6 7 df inde
python
apachespark
Bigdata
PySpark
RDD
值reduceByKey不是org.apache.spark.rdd.RDD的成员
很伤心 我的spark版本是2 1 1 Scala版本是2 11 import org apache spark SparkContext import com mufu wcsa component dimension Dimension
scala
generics
apachespark
RDD
traits
Spark 中的foldLeft 或foldRight 等效项?
在 Spark 的 RDD 和 DStream 中 我们有 reduce 函数 用于将整个 RDD 转换为一个元素 然而 reduce 函数采用 T T gt T 然而 如果我们想减少Scala中的列表 我们可以使用foldLeft或fol
scala
apachespark
SparkStreaming
fold
RDD
Spark中如何按键对RDD进行分区?
鉴于 HashPartitioner 文档说 HashPartitioner 使用 Java 实现基于哈希的分区 对象 hashCode 说我要分区DeviceData by its kind case class DeviceData k
scala
apachespark
RDD
如何从任务中打印累加器变量(似乎无需调用 value 方法即可“工作”)?
我知道从任务的角度来看 当累加器变量在工作节点中执行时 它们是 只写 的 我对此做了一些测试 我意识到我能够在任务中打印累加器值 这里我正在初始化驱动程序中的累加器 scala gt val accum sc accumulator 123
scala
apachespark
RDD
05-分布式计算框架
目录 一 MapReduce 1 简介 2 原理 2 1 基本概念 2 2 程序执行过程 2 3 作业运行模式 二 Spark 1 简介 1 1 背景 1 2 概念 1 3 特点 2 原理 2 1 编程模型 2 2 运行模式 2 3 运行过
大数据入门
大数据
MapReduce
计算框架
RDD
spark学习7:RDD编程
1 目录 2 创建RDD 两种方式 2 1从文件系统加载 sc textFile 方法来加载文件数据 并将文件数据转换为RDD 2 1 1 从本地文件加载数据 val rdd1 sc textFile file home hzp Docum
spark
RDD
spark学习3:RDD运行原理
1 RDD设计背景 为了解决 MapReduce的 频繁磁盘IO开销 序列化和反序列化的开销 因为从磁盘读取数据转换为对象 需要反序列化 在对象落磁盘时候 需要序列化 spark通过抽象的RDD对象和DAG图 对数据读取流转进行优化 最优方
spark
RDD
RDD本地文件系统读入显示文件不存在fileNotExit
问题 在从本地文件系统读入数据创建RDD时 xff0c 执行行动操作 xff0c 显示文件不存在 解决方案 从本地文件系统读入时 xff0c 需在所有节点的相同目录下存在该文件 xff0c 如读取文件在 file span class to
RDD
fileNotExit
本地文件系统读入显示文件不存在
«
1
2
3
4
5
6
7
8
»