DAG 在 RDD 中是如何工作的？

2024-01-18

The 火花研究论文 http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf提出了一种基于经典 Hadoop MapReduce 的新分布式编程模型，声称在许多情况下（特别是在机器学习方面）实现了简化和巨大的性能提升。然而，揭露真相的材料internal mechanics on Resilient Distributed Datasets with Directed Acyclic Graph这篇论文似乎缺乏。

是否应该通过研究源代码来更好地学习？

甚至我一直在网上查找 Spark 如何从 RDD 计算 DAG 并随后执行任务。

在较高级别上，当在 RDD 上调用任何操作时，Spark 会创建 DAG 并将其提交给 DAG 调度程序。

DAG 调度程序将操作符划分为任务阶段。阶段由基于输入数据分区的任务组成。 DAG 调度程序将运算符连接在一起。例如可以在一个阶段中安排许多地图操作员。 DAG 调度程序的最终结果是一组阶段。
阶段被传递到任务调度程序。任务调度程序通过集群管理器（Spark Standalone/Yarn/Mesos）启动任务。任务调度程序不知道阶段的依赖性。
Worker 在 Slave 上执行任务。

我们来看看Spark是如何构建DAG的。

在高层次上，有两种转换可以应用于 RDD，即狭义转型和广义转型。广泛的转变基本上会导致阶段边界。

狭义转型- 不需要在分区之间移动数据。例如，地图、过滤器等。

广泛的转变- 需要对数据进行混洗，例如，reduceByKey 等。

让我们举一个例子来计算每个严重级别出现的日志消息数量，

以下是以严重级别开头的日志文件，

INFO I'm Info message
WARN I'm a Warn message
INFO I'm another Info message

并创建以下 scala 代码来提取相同的内容，

val input = sc.textFile("log.txt")
val splitedLines = input.map(line => line.split(" "))
                        .map(words => (words(0), 1))
                        .reduceByKey{(a,b) => a + b}

此命令序列隐式定义了 RDD 对象（RDD 谱系）的 DAG，稍后调用操作时将使用该 DAG。每个 RDD 都维护一个指向一个或多个父代的指针，以及有关其与父代关系类型的元数据。例如，当我们调用val b = a.map()在 RDD 上，RDDb保留对其父级的引用a，这是一个血统。

为了显示 RDD 的沿袭，Spark 提供了一种调试方法toDebugString()。例如执行toDebugString() on the splitedLinesRDD，将输出以下内容：

(2) ShuffledRDD[6] at reduceByKey at <console>:25 []
    +-(2) MapPartitionsRDD[5] at map at <console>:24 []
    |  MapPartitionsRDD[4] at map at <console>:23 []
    |  log.txt MapPartitionsRDD[1] at textFile at <console>:21 []
    |  log.txt HadoopRDD[0] at textFile at <console>:21 []

第一行（从底部开始）显示输入 RDD。我们通过调用创建了这个 RDDsc.textFile()。下面是根据给定 RDD 创建的 DAG 图的更直观的视图。

一旦 DAG 构建完成，Spark 调度程序就会创建一个物理执行计划。如上所述，DAG 调度程序将图拆分为多个阶段，阶段是根据转换创建的。狭窄的转换将被分组（管道式）到一个阶段。因此，对于我们的示例，Spark 将创建两个阶段执行，如下所示：

然后，DAG 调度程序会将阶段提交到任务调度程序中。提交的任务数量取决于文本文件中存在的分区数量。 Fox 示例假设我们在此示例中有 4 个分区，那么只要有足够的从属/核心，就会并行创建和提交 4 组任务。下图更详细地说明了这一点：

有关更多详细信息，我建议您观看以下 YouTube 视频，其中 Spark 创建者提供了有关 DAG 以及执行计划和生命周期的深入详细信息。

高级 Apache Spark- Sameer Farooqui (Databricks) https://www.youtube.com/watch?v=7ooZ4S7Ay6Y
深入了解 Spark 内部结构 - Aaron Davidson (Databricks) https://www.youtube.com/watch?v=dmL0N3qfSc8
AmpLab Spark 内部结构简介 https://www.youtube.com/watch?v=49Hr5xZyTEA

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

DAG 在 RDD 中是如何工作的？的相关文章

从 pandas udf 记录

我正在尝试从 python 转换中调用的 pandas udf 进行日志记录因为在执行器上调用的代码不会显示在驱动程序的日志中我一直在寻找一些选项但到目前为止最接近的选项是这个one https stackoverflow com q
如何使用 Scala 在 Spark 中漂亮地打印 JSON 数据帧？

我有一个数据帧我想将其作为有效的 json 写入 json 文件我当前的代码如下所示 val df DataFrame myFun df toJSON saveAsTextFile myFile json 输出的格式为如何将文件内容组
如何在 Mac 上使用 homebrew 安装 apache-spark 2.3.3

brew install apache spark只安装最新版本的 Spark 2 4 和 brew search apache spark没有给出任何其他选项有没有办法用自制程序安装旧版本的 Spark Type brew tap ed
Spark Scala：按小时或分钟计算两列的 DateDiff

我在数据框中有两个时间戳列我想获取它们的分钟差异或者小时差异目前我可以通过四舍五入获得日差 val df2 df1 withColumn time datediff df1 ts1 df1 ts2 但是当我查看文档页面时https
无法在 SBT 中运行 Apache Spark 相关单元测试 - NoClassDefFoundError

我有一个简单的单元测试使用SparkContext 我可以在 IntelliJ Idea 中运行单元测试没有任何问题但是当尝试从 SBT shell 运行相同的测试时我收到以下错误 java lang NoClassDefFoun
如何将模型从 ML Pipeline 保存到 S3 或 HDFS？

我正在尝试保存 ML Pipeline 生成的数千个模型正如答案中所示here https stackoverflow com questions 32121046 run 3000 random forest models by gro
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
使用 pyspark 计算所有可能的单词对

我有一个文本文档我需要找到整个文档中重复单词对的可能数量例如我有下面的word文档该文档有两行每行用分隔文档 My name is Sam My name is Sam My name is Sam My name is Sa
如何在 Apache Spark 中通过 DStream 使用特征提取

我有通过 DStream 从 Kafka 到达的数据我想进行特征提取以获得一些关键词我不想等待所有数据的到达因为它是可能永远不会结束的连续流所以我希望以块的形式执行提取如果准确性会受到一点影响对我来说并不重要到目前为止我整理
如何使用 Spark 2 屏蔽列？

我有一些表我需要屏蔽其中的一些列要屏蔽的列因表而异我正在读取这些列application conf file 例如对于员工表如下所示 id name age address 1 abcd 21 India 2 qazx 42 Ger
如何设置SPARK_HOME变量？

按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文
在 Spark 结构化流 2.3.0 中连接两个流时，左外连接不发出空值

两个流上的左外连接不发出空输出它只是等待记录添加到另一个流中使用套接字流来测试这一点在我们的例子中我们想要发出具有 null 值的记录这些记录与 id 不匹配或且不属于时间范围条件水印和间隔的详细信息如下 val ds1Map
Spark 中的 StandardScaler 未按预期工作

知道为什么 Spark 会这样做吗StandardScaler 根据定义StandardScaler StandardScaler 将一组特征标准化为均值为零标准差为 1 withStd 标志将数据缩放为单位标准差而标志 withMe
将 Tuple2 的值部分（即映射）合并为按 Tuple2 的键分组的单个映射

我在 Scala 和 Spark 中这样做我有和Dataset of Tuple2 as Dataset String Map String String 下面是值的示例Dataset A 1 gt 100 2 gt 200 3 gt 1
Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数

我有一个文件夹里面有 14 个文件我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？

尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo
如果两个阶段使用相同的 DataFrame，spark 是否会读取同一文件两次？

以下代码读取相同的 csv 两次即使只调用一个操作端到端可运行示例 import pandas as pd import numpy as np df1 pd DataFrame np arange 1 000 reshape 1 1
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
PySpark - 系统找不到指定的路径

Hy 我已经多次运行 Spark Spyder IDE 今天我收到这个错误代码是相同的 from py4j java gateway import JavaGateway gateway JavaGateway os environ SP

随机推荐

如何在不使用脚本标签的情况下注入javascript？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我无法使用脚本标签当我这样做时它会发出警报这仅对测试有用它过滤掉它们 script gt SCRIPT gt SCRIPT sCriP
分发 Xamarin Forms 应用程序时出现错误 400：redirect_uri_mismatch

我正在尝试通过 Visual Studio 2019 中的 Google Play 商店分发我的 Xamarin Forms Android 应用程序我遵循微软的这个教程 https learn microsoft com en us x
对自定义验证过滤器进行单元测试

我有以下属性 public class ValidateModelAttribute ActionFilterAttribute public override void OnActionExecuting HttpActionContex
AWS Amplify Auth：如何禁用 AmplifyConfirmSignUp？

我目前正在使用 AWS Amplify 身份验证使用 Cognito 进行 React 身份验证用户注册必须通过单击通过电子邮件收到的确认链接来确认其新帐户当用户提交注册信息时显示的下一个 UI 是确认注册要求用户确认代码我不
C++ 全局 extern“C” 友元无法访问命名空间类上的私有成员

请考虑代码 include
具有“浮动”径向轴的极坐标图

我正在研究一个由网格中大量极坐标图组成的图形所有这些极坐标图在径向轴上共享一个共同的比例每个图都需要非常小才能适合图形但是当我缩小轴的尺寸时径向轴的刻度标签看起来拥挤且难以辨认并且模糊了我试图绘制的数据例如 import num
android facebook api 将图像发布到墙上

我希望能够使用 facebook android sdk 并发布到 facebook 的链接我想要的一个例子是如果您在 Facebook 上并且在状态部分中输入一个链接例如 http www google com 当您执行此操作时
如何在 Windows 上使用 JSDoc？

如果这是一个愚蠢的问题请原谅我但我对如何在 Windows 上使用 JSDoc 感到非常困惑我知道 JSDoc Toolkit 但它有点过时了谷歌代码存储库建议使用 JSDoc 3 我已经从 Github 下载了 JSDoc 并将
捕获来自节点中任何 EventEmitter 的所有“错误”事件

Via Node js 文档 https nodejs org api events html 未处理的EventEmitter将使正在运行的进程崩溃当 EventEmitter 实例遇到错误时典型的操作是发出错误事件错误事件在节
我可以将二维数组视为连续的一维数组吗？

考虑以下代码 int a 25 80 a 0 1234 56 int p a 0 0 p 1234 56 第二行是否会调用未定义的行为那么第四行呢两条线do导致未定义的行为下标被解释为指针加法后跟间接寻址即a 0 1234 p 12
如何创建接受内部 XAML 控件的 UserControl？

与 Stackpanel 类似我可以将文本框和按钮等控件作为内部 XAML
带有 React Hooks 的 HoC

我正在尝试从class component to react hooks with Context API 我无法弄清楚出现错误的具体原因是什么首先我的代码 contexts sample jsx import React create
OWL/XML 读取问题

我在使用 Jena 从 Java 读取 OWL XML 文件时遇到问题我读取 RDF XML 文件没有问题但每当我从 Protege 创建 OWL XML 文件并尝试读取它时 Java 都会给出以下错误警告主要 RDFDefault
如何在 Ruby 中关闭和删除文件？

假设我在 Ruby 中打开一个文件如下所示 f File open diagram txt r 现在为了关闭并删除该文件我有以下代码 begin f File open diagram txt r ensure if f nil Fi
如何在插件中访问 Maven 的依赖关系层次结构

在我的插件中我需要处理依赖关系层次结构并获取有关每个依赖关系以及是否已排除的信息 groupId artifactId 版本等做这个的最好方式是什么依赖插件有树目标 http maven apache org plugins mave
如何列出Excel中三列中值的所有可能组合？

我有三列每一列都有不同类型的主数据如下所示现在我想要这三个单元格的所有可能组合就像 aa kk jj aa kk ff aa ll jj aa ll ff aa mm jj 这可以用公式来完成吗我发现一个公式有 2 列但我无法
Typescript - 基于另一个属性的条件属性

定义类型时我们可以根据另一个属性来使一个属性成为必需的吗一个例子是 type Parent children Child childrenIdSequence string Only make this required when ch
当键盘出现时向上移动视图

问题我有一个ViewController有一个子类UIScrollView in it 在scrollView中有3个UITextFields 其中 2 个带有数字键盘 1 个带有UIPickerView键盘问题是当键盘出现时它会隐藏
如何退出 win32com 上的 Outlook？

我有一个检查我的 Outlook 文件夹的脚本不便的是我的 Outlook 可能已经打开或者如果没有打开脚本将在后台为我打开 Outlook 我想简化它以便如果我的 Outlook 已打开则保留它如果它是由脚本调度的请随后退
DAG 在 RDD 中是如何工作的？

The 火花研究论文 http www cs berkeley edu matei papers 2012 nsdi spark pdf提出了一种基于经典 Hadoop MapReduce 的新分布式编程模型声称在许多情况下特别是在机器

DAG 在 RDD 中是如何工作的？

DAG 在 RDD 中是如何工作的？ 的相关文章

随机推荐

热门标签

DAG 在 RDD 中是如何工作的？的相关文章