Spark中RDD转换的结果是什么?

2024-06-25

谁能解释一下,结果是什么RDD 转换?它是新的数据集(数据副本)还是只是新的指针集,用于过滤旧数据块?


RDD 转换允许您在 RDD 之间创建依赖关系。依赖关系只是产生结果(程序)的步骤。谱系链(依赖字符串)中的每个 RDD 都有一个计算其数据的函数,并有一个指向其父 RDD 的指针(依赖)。 Spark会将RDD依赖项划分为阶段和任务,并将其发送给worker执行。

所以如果你这样做:

val lines = sc.textFile("...")
val words = lines.flatMap(line => line.split(" "))
val localwords = words.collect()

Words 将是一个包含对 RDD 行的引用的 RDD。当程序执行时,将执行第一行的函数(从文本文件加载数据),然后对结果数据执行单词的函数(将行分割成单词)。 Spark 是惰性的,因此除非您调用一些将触发作业创建和执行的转换或操作(在本例中为收集),否则不会执行任何操作。

因此,RDD(也称为转换后的 RDD)不是“一组数据”,而是程序中的一个步骤(可能是唯一的步骤),告诉 Spark 如何获取数据以及如何处理数据。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Spark中RDD转换的结果是什么? 的相关文章

随机推荐

  • 片段真的需要一个空的构造函数吗?

    我有一个Fragment使用带有多个参数的构造函数 我的应用程序在开发过程中运行良好 但在生产过程中我的用户有时会看到此崩溃 android support v4 app Fragment InstantiationException Un
  • Chrome 扩展程序后台页面 html 不起作用

    我正在尝试了解 chrome 背景页面 我设法在对示例进行蚕食后运行background js脚本 并且每次用户访问页面时都会弹出一个警报框 但是 当我采用相同的脚本并将其移动到 background html 文件时 我似乎无法执行该文件
  • Avro 无法反序列化字段中逻辑类型的 Union

    Avro 工具版本 1 9 2 这是我在反序列化 Avro 数据时面临的问题 当字段为带有空值和逻辑类型的 Union 时 Avro 似乎无法生成正确的 POJO 类 目前的行为 当 avro 模式具有 null 和逻辑类型联合的字段时 A
  • 如何正确检查 Connect 4 中的 Diagonal Win

    我的检查垂直获胜和检查水平获胜工作得很好 但是我不知道如何处理我的检查对角线代码以使其真正检查对角线 一些指导将非常感激 这是用java编写的 谢谢 private boolean checkVerticalWin PieceType ty
  • PhoneGap 2.5.0 问题

    我尝试在 PhoneGap 2 5 0 for Android 中创建项目时出现以下错误 An unexpected error occurred ANDROID BIN create project target TARGET path
  • Apache 未从 XAMPP 控制面板运行(错误:Apache 意外关闭。这可能是由于端口被阻止)

    我已在 Windows 7 上成功安装 XAMPP xampp win32 1 8 2 0 VC9 installer exe 但不幸的是 在从XAMPP控制面板运行Apache时发现以下错误 5 38 38 PM Apache Error
  • 不能借用可变变量,因为在构建自引用 HashMap 时它也被借用为不可变变量

    我正在尝试建立一个自我参照HashMap use std collections HashMap struct Node lt a gt byte u8 map HashMap
  • Chart JS、ng2-Charts - 如何使标签位于饼图右侧而不是顶部?

    我正在使用图表jshttps www npmjs com package chart js https www npmjs com package chart js and ng2 图表 https www npmjs com packag
  • 如何在 Jenkinsfile 中使用“findFiles”?

    我的 Jenkinsfile 包含这个阶段 stage Deploy steps script def rpmFiles findFiles glob rpm def rpmFile rpmFiles 0 我想用它来将工件部署到服务器 如何
  • 如何定义 SoapVar 命名空间?

    我需要在 SOAP 请求中包含此节点 使用 1 1
  • super(cls, 实例) 和 super(cls, 子类) 之间有什么区别?

    Won t super cls instance and super cls subclass 两者都返回超类cls 差异是巨大的 super 使用类型 类 第二个参数而不是对象 实例 为您提供未绑定的方法 而不是绑定的方法 就像访问类上的
  • 如何回滚微服务

    我对微服务有疑问 假设有 5 个微服务 即 M1 M2 M3 M3 M4 和 M5 有 4 个数据库 由 4 个微服务连接 访问 例如 M2连接到MySQL M3连接到Cassandra M4连接到MongoDB M5连接到Oracle N
  • 使用 mle() 估计自定义分布的参数

    我有以下代码 我希望估计自定义分布的参数 有关分发的更多详细信息 https stackoverflow com q 56522903 4930944 然后使用估计的参数 我想看看估计的 PDF 是否类似于给定数据的分布 它应该与给定数据的
  • 使用特征值的子矩阵和索引

    我目前正在开发一个 MATLAB 项目 我想使用 C 和 Eigen 重新实现计算量最大的部分 我想知道是否有办法执行以下操作 MATLAB语法 B A A lt 3 对于那些不熟悉 MATLAB 的人来说 上述命令初始化一个由 A 中值小
  • 如何从准备好的语句中获取标量结果?

    是否可以将准备好的语句的结果设置为变量 我正在尝试创建以下存储过程 但失败了 第 31 行出现错误 1064 42000 您的 SQL 语法有错误 检查与您的 MySQL 服务器版本相对应的手册 了解在 stmt USING m c a 附
  • 依赖注入与程序集依赖

    假设我有以下项目结构 Application lt gt BusinessLogic lt gt DataAccessLayer 我已经准备好所有类型来使用穷人的依赖注入 现在我想介绍使用 Unity 的真正的依赖注入 但我正在努力寻找将依
  • 在 Log 中打印布尔值

    我是否可以在日志消息中打印从方法返回的布尔值 我可以打印字符串值 但我不确定如何在日志消息中打印布尔值 Yes Log v booleanValue or Log v Boolean toString booleanValue
  • 使用值类参数的 Mockito 存根方法失败并出现 NullPointerException

    使用类型化值类作为 ID 是 Scala 中的常见模式 然而 在存根以值类作为参数的方法时 Mockito 似乎遇到了问题 在下面的示例中 第一个具有实际值的存根工作得很好 但第二个使用参数匹配器的存根会抛出 NullPointerExce
  • Delphi - 引用在运行时创建的组件

    我正在使用 Delphi 5 并且在运行时创建许多面板 然后在面板上创建按钮 显然也是在运行时创建 我需要这样做 因为将来我可能需要动态创建更多面板 按钮组合 我可以完成所有这些 但我不知道如何引用我创建的面板 因为我找不到访问面板组件名称
  • Spark中RDD转换的结果是什么?

    谁能解释一下 结果是什么RDD 转换 它是新的数据集 数据副本 还是只是新的指针集 用于过滤旧数据块 RDD 转换允许您在 RDD 之间创建依赖关系 依赖关系只是产生结果 程序 的步骤 谱系链 依赖字符串 中的每个 RDD 都有一个计算其数