Spark 物理计划与 Spark Web UI sql 选项卡中显示为 DAG 的计划有何区别？

2024-01-12

我曾经认为 Spark 物理计划和 Spark Web UI SQL 选项卡中显示为 DAG 的两者应该完全相同，只是 SQL 选项卡中的 DAG 将填充实际运行时的统计信息。因此，Web UI 中 SQL 选项卡的内容甚至仅在调用操作后才可见（因为它需要这些运行时统计信息）

然而，这种情况并非如此：

端到端可运行示例：

import pandas as pd
import numpy as np

df1=  pd.DataFrame(np.arange(1_000).reshape(-1,10))
df1.index = np.random.choice(range(10),size=100)
df1.to_csv("./df1.csv",index_label = "index")
############################################################################

from pyspark.sql import SparkSession
from pyspark.sql import functions as F
from pyspark.sql.types import StructType, StringType, StructField

spark = SparkSession.builder.config("spark.sql.autoBroadcastJoinThreshold","-1").\
config("spark.sql.adaptive.enabled","false").getOrCreate()

schema = StructType([StructField('index', StringType(), True),
                     StructField('0', StringType(), True), 
                     StructField('1', StringType(), True), 
                     StructField('2', StringType(), True), 
                     StructField('3', StringType(), True), 
                     StructField('4', StringType(), True), 
                     StructField('5', StringType(), True), 
                     StructField('6', StringType(), True), 
                     StructField('7', StringType(), True), 
                     StructField('8', StringType(), True), 
                     StructField('9', StringType(), True)])

df1 = spark.read.csv("./df1.csv", header=True, schema = schema)

df2 = df1.select("index","0","1")
df3 = df1.select("index","2","3")

df4 = df1.join(df2,on='index').join(df3,on="index")

df4.explain(mode="formatted")
df4.count()

输出（物理计划）：

== Physical Plan ==
* Project (16)
+- * SortMergeJoin Inner (15)
   :- * Project (10)
   :  +- * SortMergeJoin Inner (9)
   :     :- * Sort (4)
   :     :  +- Exchange (3)
   :     :     +- * Filter (2)
   :     :        +- Scan csv  (1)
   :     +- * Sort (8)
   :        +- Exchange (7)
   :           +- * Filter (6)
   :              +- Scan csv  (5)
   +- * Sort (14)
      +- Exchange (13)
         +- * Filter (12)
            +- Scan csv  (11)

上面的物理计划中显示了 3 次单独的数据扫描。

然而，the SQLWeb UI 中的选项卡如下所示，仅扫描一次数据:

Spark 物理计划与 Spark Web UI SQL 选项卡中显示为 DAG 的计划有何区别？

的输出.explain是 Spark 生成的几个候选物理计划之一。

Web UI 的 SQL 选项卡中显示的计划是执行的最终计划（给定系统设置的最佳计划）。它包含物理计划之上的优化，例如重用交换

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

apachesparksql

Spark 物理计划与 Spark Web UI sql 选项卡中显示为 DAG 的计划有何区别？的相关文章

如何读取一次流数据集并输出到多个接收器？

我有 Spark 结构化流作业它从 S3 读取数据转换数据然后将其存储到一个 S3 接收器和一个 Elasticsearch 接收器目前我正在做readStream一次然后writeStream format start 两次这
Spark：如何使用crossJoin

我有两个数据框 df1有 100000 行并且df2有 10000 行我想创建一个df3这是两者的交叉连接 val df3 df1 crossJoin df2 这将产生 10 亿行尝试在本地运行它但似乎需要很长时间您认为本地可以实现
获取 int() 参数必须是字符串或数字，而不是“Column”- Apache Spark

如果我使用以下代码我会收到此异常 int argument must be a string or a number not Column df df withColumn FY F when df ID substr 5 2 isin
如何在 Databricks 中使用 OPTIMIZE ZORDER BY

我有两个数据框来自三角洲湖表它们通过 id 列进行左连接 sd1 sd2 sql select a columnA b columnB from sd1 a left outer join sd2 b on a id b id 问题是我
将 IndexToString 应用于 Spark 中的特征向量

Context 我有一个数据框其中所有分类值都已使用 StringIndexer 进行索引 val categoricalColumns df schema collect case StructField name StringType
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
错误：无法找到或加载主类 org.apache.spark.launcher.Main [重复]

这个问题在这里已经有答案了如果有人能帮我解决以下路径问题我将不胜感激我非常怀疑这与缺少路径设置有关但不知道如何修复它 rxie ubuntu Downloads spark echo PATH usr bin java usr lo
在 GPU 支持下对高维数据进行更快的 Kmeans 聚类

我们一直在使用 Kmeans 来对日志进行聚类典型的数据集有 10 mill 具有 100k 特征的样本为了找到最佳 k 我们并行运行多个 Kmeans 并选择轮廓得分最佳的一个在 90 的情况下我们最终得到的 k 介于 2 到 1
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数

我有一个文件夹里面有 14 个文件我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst
使用 scalapb 在 Spark Streaming 中解码 Proto Buf 消息时出错

这是一个 Spark Streaming 应用程序它使用编码的 Kafka 消息Proto Buf Using scalapb图书馆我收到以下错误请帮忙 gt com google protobuf InvalidProtocolBu
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
如何使用 Scala 从 Spark 更新 ORC Hive 表

我想更新 orc 格式的 hive 表我可以从 ambari hive 视图进行更新但无法从 sacla spark shell 运行相同的更新语句 objHiveContext sql select from table name 能
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current
Spark：导入UTF-8编码的文本文件

我正在尝试处理一个包含很多特殊字符的文件例如德语变音符号 o 等如下所示 sc hadoopConfiguration set textinputformat record delimiter r n r n sc textFile f
Spark-1.6.1 上的 DMLC 的 XGBoost-4j

我正在尝试在 Spark 1 6 1 上使用 DMLC 的 XGBoost 实现我能够使用 XGBoost 训练我的数据但在预测方面面临困难我实际上想以在 Apache Spark mllib 库中完成的方式进行预测这有助于计算训练
如何将 UDF 中的结构或类数组返回到数据帧列值中？

d ID 1 pID 1000 startTime 2018 07 02T03 34 20 endTime 2018 07 03T02 40 20 ID 1 pID 1000 startTime 2018 07 02T03 45 20 en

随机推荐

核心数据：在实体中未找到键路径错误

谁能告诉我这段代码有什么问题吗它会引发以下错误并导致应用程序崩溃 reason keypath Studies patients PatientName not found in entity
如何让 babelify 10 定位浏览器

我想要的是使用最新版本的库让它在 IE 11 中运行我正在构建一个 React 应用程序为了运行测试我需要 testing library react 为了在浏览器中运行测试我需要 browserify 为了在我支持的每个浏览器
main.js:2 Uncaught Referenceerror: firebase 未定义 [重复]

这个问题在这里已经有答案了我正在尝试将我的 html 联系表单与 firebase 链接但遇到错误未捕获的引用错误 firebase 未定义在我的 main js 文件中我在 html 文件中很好地定义了 CDN 但在 main
什么是 Swift 中的部分应用闭包#1

我试图理解此崩溃报告但无法理解因为函数 applySettings 不是从 init 调用的如崩溃报告中所示 Swift 中的部分申请closure 1 是什么这是 init 函数所需的代码 public override ini
位置：修复Chrome Mobile中的滑动bug

如果您查看我的网站 http alexander pastor de在手机上的 Chrome Mobile 中向任何方向滚动时页脚都不会保持原样对原因或解决方法有什么想法吗页脚的 CSS 代码如下所示 footer width 10
我可以对 GroupTemplate 或 ItemTemplate 进行编号吗？

我想使用 GroupTemplate 将项目列表分成组但是我需要按顺序对每个组进行编号以便我可以链接到它们并实现一些 JS 分页我正在绑定到 IEnumerable 这是一些伪代码我希望输出看起来像这样 a href group1
如何 grep 查找所有少于 4 个字符的单词？

我有一本字典单词之间用换行符分隔你可以这样做 egrep x 1 3 myfile 这也会跳过空白行从技术上讲空白行不是单词不幸的是上面的正则表达式会将缩写中的撇号计为字母并将连字符复合词中的连字符计为字母在字母数如此少的情
Python 中 minidom 的内存错误

我在 Python 中遇到了带有 minidom 解析器的 MemoryError 我正在读取 8000 个小文件大部分小于 50 Kb 在读取 2500 个后出现此错误 Traceback most recent call last F
Mysql为json类型列设置默认值

我听说8 0 13之前的mysql版本接受json类型列的默认值所以我使用cmd ALTER TABLE templates CHANGE COLUMN values JSON NOT NULL DEFAULT 但收到错误 Error C
ASP.Net 控件与 HTML 控件性能

我听说我们应该避免使用默认 ASP Net 控件因为它们在 Viewstate 等方面很重要因此每当我只想显示信息时我就考虑使用 HTML 标签并使用 Eval 函数在 href 或 src 属性中插入服务器端代码但我也听说 E
Grails GORM“或”不与关联一起工作

在下面的示例中我希望 Product searchAll 能够匹配两者添加剂和产品但似乎忽略了eq name taste class Additive String flavor static belongsTo product Pr
如何添加WPF treeView节点点击事件获取节点值

我有一个TreeView在wpf中如何获得TreeView节点单击事件以便我可以获得用户单击的节点的值 Xaml
QML：在 QML 中使用 cpp 信号始终会导致“无法分配给不存在的属性”

我只想将 cpp 信号连接到 qml 插槽并尝试不同的方法但它总是在运行时导致相同的 QML 错误无法分配给不存在的属性 onProcessed Why 这是我的 Cpp 对象 include
有没有办法运行 cypress open 并且只包含包含关键字的测试文件？例如。来自domains-lifecycle.spec.jsx的生命周期

我的项目中有一个相当大的测试文件库大约 80 个并且我用关键字 ex 命名它们创建编辑和生命周期我希望能够跑步npx cypress open并且仅包含所有包含生命周期的测试文件我可以在 Cypress json glo
谷歌地图 API 未在精确位置放置标记

我的代码应该找出用户位置并在进入应用程序时在地图上放置一个标记我的位置值始终等于 null 并且从未收到值 if location null lat int location getLatitude 1E6 longi int locat
github graphql api，“clientMutationId”是什么意思？

I saw clientMutationId领域在示例强类型 https developer github com v4 guides migrating from rest example strong typing文档 mutation
C# 从不同线程调用控制

我正在开发一个使用多线程的服务器程序问题是有多个类和大量线程它们都需要访问某个 TextBox tb日志该方法 Log 如下所示 using System using System Windows Forms using Syste
如何在nodejs中的axios POST请求中传递文本/纯内容

I want to pass body parameters as shown in screen shot in text plain format 我在我的 nodejs express 项目中使用 axios 我的请求格式如下图 va
其元素形成连续序列的最长子数组

给定一个未排序的正整数数组找到排序时元素连续的最长子数组的长度你能想到一个 O n 的解决方案吗 Example 10 5 3 1 4 2 8 7 答案是 5 4 5 1 5 7 6 8 4 1 答案是 5 对于第一个例子子数组 5
Spark 物理计划与 Spark Web UI sql 选项卡中显示为 DAG 的计划有何区别？

我曾经认为 Spark 物理计划和 Spark Web UI SQL 选项卡中显示为 DAG 的两者应该完全相同只是 SQL 选项卡中的 DAG 将填充实际运行时的统计信息因此 Web UI 中 SQL 选项卡的内容甚至仅在调用操作后才

热门标签