Spark中RDD转换的结果是什么？

2024-06-25

谁能解释一下，结果是什么RDD 转换？它是新的数据集（数据副本）还是只是新的指针集，用于过滤旧数据块？

RDD 转换允许您在 RDD 之间创建依赖关系。依赖关系只是产生结果（程序）的步骤。谱系链（依赖字符串）中的每个 RDD 都有一个计算其数据的函数，并有一个指向其父 RDD 的指针（依赖）。 Spark会将RDD依赖项划分为阶段和任务，并将其发送给worker执行。

所以如果你这样做：

val lines = sc.textFile("...")
val words = lines.flatMap(line => line.split(" "))
val localwords = words.collect()

Words 将是一个包含对 RDD 行的引用的 RDD。当程序执行时，将执行第一行的函数（从文本文件加载数据），然后对结果数据执行单词的函数（将行分割成单词）。 Spark 是惰性的，因此除非您调用一些将触发作业创建和执行的转换或操作（在本例中为收集），否则不会执行任何操作。

因此，RDD（也称为转换后的 RDD）不是“一组数据”，而是程序中的一个步骤（可能是唯一的步骤），告诉 Spark 如何获取数据以及如何处理数据。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

RDD

Spark中RDD转换的结果是什么？的相关文章

Spark 执行器登录 YARN

我正在 Cloudera 集群上以 YARN 客户端模式启动分布式 Spark 应用程序一段时间后我在 Cloudera Manager 上看到一些错误一些执行者会断开连接并且这种情况会系统性地发生我想调试该问题但 YARN 未
如何在SparkR中进行map和reduce

如何使用 SparkR 进行映射和归约操作我能找到的只是有关 SQL 查询的内容有没有办法使用 SQL 进行映射和减少 See 写入从 SparkR map 返回的 R 数据帧 https stackoverflow com quest
Spark-submit，客户端无法通过以下方式进行身份验证：[TOKEN，KERBEROS]；

我使用 kerberos 设置了 hadoop 集群但是当我运行 Spark Submit 时它抛出异常 17 10 19 08 46 53 WARN scheduler TaskSetManager Lost task 0 0 in
如何传递架构以从现有数据帧创建新数据帧？

要将 schema 传递到 json 文件我们这样做 from pyspark sql types import StructField StringType StructType IntegerType data schema Stru
Spark Scala 相当于 SKEW 连接提示

Spark SQL 有一个可用的倾斜提示请参阅here https docs databricks com spark latest spark sql skew join html relation columns and skew v
Spark 作业托管在 Jboss 上并尝试连接到 master 时，调用 RpcHandler #receive() 获取单向消息时出错

部署在 Jboss 服务器上时我无法连接到 master 上的 Spark 我有一个使用 Java 和 Spark API 设计的应用程序用于将数据加载到 Oracle 数据库我已经在 J boss 上部署了这个应用程序并且在我的本
为什么我必须明确告诉 Spark 要缓存什么？

在 Spark 中每次我们对 RDD 执行任何操作时都会重新计算 RDD 因此如果我们知道 RDD 将被重用我们应该显式地缓存 RDD 比方说 Spark 决定延迟缓存所有 RDD 并使用 LRU 自动将最相关的 RDD 保留在内存
如何将巨大的pandas数据帧保存到hdfs？

我正在使用 pandas 和 Spark 数据框数据帧总是非常大 gt 20 GB 标准 Spark 函数不足以满足这些大小目前我将 pandas 数据框转换为 Spark 数据框如下所示 dataframe spark creat
R和spark：比较不同地理点之间的距离

我正在处理纽约市出租车数据集该数据集的列包括日期时间接送纬度经度下车纬度经度等现在我想对纬度经度进行反向地理编码以找到行政区社区我有两个数据框 1 第一个数据框包含我想要用最近的纽约社区名称进行分类的所有点 2 第二个数据
从 aws Glue 脚本调用存储过程

ETL 作业完成后在 AWS Glue 脚本中调用存储过程的最佳方式是什么我正在使用 PySpark 从 S3 获取数据并将其存储在临时表中在这个过程之后需要调用一个存储过程该存储过程将数据从临时表加载到相应的 MDS 表中如果
如何抑制 EMR 上运行的 Spark-sql 的 INFO 消息？

我正在 EMR 上运行 Spark 如中所述在 Amazon Elastic MapReduce 上运行 Spark 和 Spark SQL https aws amazon com articles 4926593393724923 本教
用于在 pyspark 中处理大数的数据类型

我将 Spark 与 python 一起使用上传 csv 文件后我需要解析 csv 文件中的一列其中包含 22 位数字长的数字为了解析我使用的列长类型我使用 map 函数来定义列以下是我在 pyspark 中的命令 gt gt
Spark：连接两个相同分区的数据帧时防止洗牌/交换

我有两个数据框df1 and df2我想在一个名为的高基数字段上多次加入这些表visitor id 我只想执行一次初始洗牌并让所有连接发生而无需在 Spark 执行器之间洗牌交换数据为此我创建了另一个名为visitor parti
仅使用 Spark ML Pipelines 进行转换

我正在开发一个项目其中可配置的管道和 Spark DataFrame 更改的沿袭跟踪都是必不可少的该管道的端点通常只是修改后的 DataFrame 将其视为 ETL 任务对我来说最有意义的是利用现有的 Spark ML Pipelin
我需要比较两个数据帧以进行类型验证并发送非零值作为输出

我正在比较两个数据帧基本上这些是两个不同数据源的模式一个来自 hive 另一个来自 SAS9 2 我需要验证两个数据源的结构因此我将模式转换为两个数据帧它们是 SAS 架构将采用以下格式 scala gt metadata sho
Zeppelin：如何在 zeppelin 中重新启动 SparkContext

我正在使用 zeppelins Spark 解释器的隔离模式在这种模式下它将为 Spark 集群中的每个笔记本启动一项新工作我想在笔记本执行完成后通过 zeppelin 终止该作业为此我做了sc stop这停止了 sparkCont
Spark错误：无效的日志目录/app/spark/spark-1.6.1-bin-hadoop2.6/work/app-20161018015113-0000/3/

我的 Spark 应用程序因上述错误而失败实际上我的 Spark 程序正在将日志写入该目录 stderr 和 stdout 都被写入所有工作人员我的程序以前运行良好但昨天我将 fodler 更改为指向 SPARK WORKER DIR
Spark 有效地过滤大数据框中存在于小数据框中的条目

我有一个 Spark 程序它读取一个相对较大的数据帧 3 2 TB 其中包含 2 列 id name 和另一个相对较小的数据帧 20k 条目其中包含单个列 id 我想做的是从大数据框中获取 id 和名称如果它们出现在小数据框中我想知
在 Spark 中访问数组列

Spark DataFrame 包含类型为 Array Double 的列当我尝试将其返回到 map 函数时它会抛出 ClassCastException 异常以下 Scala 代码生成异常 case class Dummy x Ar
具有显式 setMaster("local") 的 Spark 作业，通过 YARN 传递给 Spark-Submit

如果我有一个 Spark 作业 2 2 0 编译为setMaster local 如果我发送该作业会发生什么spark submit master yarn deploy mode cluster 我尝试了这个看起来该作业确实在 YARN

随机推荐

片段真的需要一个空的构造函数吗？

我有一个Fragment使用带有多个参数的构造函数我的应用程序在开发过程中运行良好但在生产过程中我的用户有时会看到此崩溃 android support v4 app Fragment InstantiationException Un
Chrome 扩展程序后台页面 html 不起作用

我正在尝试了解 chrome 背景页面我设法在对示例进行蚕食后运行background js脚本并且每次用户访问页面时都会弹出一个警报框但是当我采用相同的脚本并将其移动到 background html 文件时我似乎无法执行该文件
Avro 无法反序列化字段中逻辑类型的 Union

Avro 工具版本 1 9 2 这是我在反序列化 Avro 数据时面临的问题当字段为带有空值和逻辑类型的 Union 时 Avro 似乎无法生成正确的 POJO 类目前的行为当 avro 模式具有 null 和逻辑类型联合的字段时 A
如何正确检查 Connect 4 中的 Diagonal Win

我的检查垂直获胜和检查水平获胜工作得很好但是我不知道如何处理我的检查对角线代码以使其真正检查对角线一些指导将非常感激这是用java编写的谢谢 private boolean checkVerticalWin PieceType ty
PhoneGap 2.5.0 问题

我尝试在 PhoneGap 2 5 0 for Android 中创建项目时出现以下错误 An unexpected error occurred ANDROID BIN create project target TARGET path
Apache 未从 XAMPP 控制面板运行（错误：Apache 意外关闭。这可能是由于端口被阻止）

我已在 Windows 7 上成功安装 XAMPP xampp win32 1 8 2 0 VC9 installer exe 但不幸的是在从XAMPP控制面板运行Apache时发现以下错误 5 38 38 PM Apache Error
不能借用可变变量，因为在构建自引用 HashMap 时它也被借用为不可变变量

我正在尝试建立一个自我参照HashMap use std collections HashMap struct Node lt a gt byte u8 map HashMap
Chart JS、ng2-Charts - 如何使标签位于饼图右侧而不是顶部？

我正在使用图表jshttps www npmjs com package chart js https www npmjs com package chart js and ng2 图表 https www npmjs com packag
如何在 Jenkinsfile 中使用“findFiles”？

我的 Jenkinsfile 包含这个阶段 stage Deploy steps script def rpmFiles findFiles glob rpm def rpmFile rpmFiles 0 我想用它来将工件部署到服务器如何
如何定义 SoapVar 命名空间？

我需要在 SOAP 请求中包含此节点使用 1 1
super(cls, 实例) 和 super(cls, 子类) 之间有什么区别？

Won t super cls instance and super cls subclass 两者都返回超类cls 差异是巨大的 super 使用类型类第二个参数而不是对象实例为您提供未绑定的方法而不是绑定的方法就像访问类上的
如何回滚微服务

我对微服务有疑问假设有 5 个微服务即 M1 M2 M3 M3 M4 和 M5 有 4 个数据库由 4 个微服务连接访问例如 M2连接到MySQL M3连接到Cassandra M4连接到MongoDB M5连接到Oracle N
使用 mle() 估计自定义分布的参数

我有以下代码我希望估计自定义分布的参数有关分发的更多详细信息 https stackoverflow com q 56522903 4930944 然后使用估计的参数我想看看估计的 PDF 是否类似于给定数据的分布它应该与给定数据的
使用特征值的子矩阵和索引

我目前正在开发一个 MATLAB 项目我想使用 C 和 Eigen 重新实现计算量最大的部分我想知道是否有办法执行以下操作 MATLAB语法 B A A lt 3 对于那些不熟悉 MATLAB 的人来说上述命令初始化一个由 A 中值小
如何从准备好的语句中获取标量结果？

是否可以将准备好的语句的结果设置为变量我正在尝试创建以下存储过程但失败了第 31 行出现错误 1064 42000 您的 SQL 语法有错误检查与您的 MySQL 服务器版本相对应的手册了解在 stmt USING m c a 附
依赖注入与程序集依赖

假设我有以下项目结构 Application lt gt BusinessLogic lt gt DataAccessLayer 我已经准备好所有类型来使用穷人的依赖注入现在我想介绍使用 Unity 的真正的依赖注入但我正在努力寻找将依
在 Log 中打印布尔值

我是否可以在日志消息中打印从方法返回的布尔值我可以打印字符串值但我不确定如何在日志消息中打印布尔值 Yes Log v booleanValue or Log v Boolean toString booleanValue
使用值类参数的 Mockito 存根方法失败并出现 NullPointerException

使用类型化值类作为 ID 是 Scala 中的常见模式然而在存根以值类作为参数的方法时 Mockito 似乎遇到了问题在下面的示例中第一个具有实际值的存根工作得很好但第二个使用参数匹配器的存根会抛出 NullPointerExce
Delphi - 引用在运行时创建的组件

我正在使用 Delphi 5 并且在运行时创建许多面板然后在面板上创建按钮显然也是在运行时创建我需要这样做因为将来我可能需要动态创建更多面板按钮组合我可以完成所有这些但我不知道如何引用我创建的面板因为我找不到访问面板组件名称
Spark中RDD转换的结果是什么？

谁能解释一下结果是什么RDD 转换它是新的数据集数据副本还是只是新的指针集用于过滤旧数据块 RDD 转换允许您在 RDD 之间创建依赖关系依赖关系只是产生结果程序的步骤谱系链依赖字符串中的每个 RDD 都有一个计算其数

Spark中RDD转换的结果是什么？

Spark中RDD转换的结果是什么？ 的相关文章

随机推荐

热门标签

Spark中RDD转换的结果是什么？的相关文章