为什么火花计数动作分三个阶段执行

2024-04-01

我已经加载了一个 csv 文件。将其重新分区为 4，然后对 DataFrame 进行计数。当我查看 DAG 时，我发现此操作分 3 个阶段执行。

为什么这个简单的动作要分三个阶段执行。我想第一阶段是加载文件，第二阶段是查找每个分区的计数。

那么第三阶段发生了什么？

这是我的代码

val sample = spark.read.format("csv").option("header", "true").option("inferSchema", "true").option("delimiter", ";").load("sample_data.csv")

sample.repartition(4).count()

第一阶段=读取文件。由于重新分区（因为它是需要洗牌的广泛转换），它无法通过partial_count（第二阶段）加入到单个阶段中
第二阶段=本地计数（计算每个分区的计数）
第三阶段 = 驱动程序上的结果聚合。

Spark 为每个操作或广泛的转换生成单独的阶段。要了解有关窄/宽转换的更多详细信息以及为什么宽转换需要单独的阶段，请查看“宽依赖与窄依赖、高性能 Spark、Holden Karau” https://learning.oreilly.com/library/view/high-performance-spark/9781491943199/ch02.html#narrow_wide_intro or 本文 https://blog.cloudera.com/how-to-tune-your-apache-spark-jobs-part-1/.

让我们在本地测试这个假设。首先您需要创建一个数据集：

数据集/测试数据.json

[
  { "key":  1, "value":  "a" },
  { "key":  2, "value":  "b" },
  { "key":  3, "value":  "c" },
  { "key":  4, "value":  "d" },
  { "key":  5, "value":  "e" },
  { "key":  6, "value":  "f" },
  { "key":  7, "value":  "g" },
  { "key":  8, "value":  "h" }
]

然后运行以下代码：

    StructType schema = new StructType()
            .add("key", DataTypes.IntegerType)
            .add("value", DataTypes.StringType);

    SparkSession session = SparkSession.builder()
            .appName("sandbox")
            .master("local[*]")
            .getOrCreate();

    session
            .read()
            .schema(schema)
            .json("file:///C:/<you_path>/dataset")
            .repartition(4) // comment on the second run
            .registerTempTable("df");

    session.sqlContext().sql("SELECT COUNT(*) FROM df").explain();

输出将是：

== Physical Plan ==
*(3) HashAggregate(keys=[], functions=[count(1)])
+- Exchange SinglePartition
   +- *(2) HashAggregate(keys=[], functions=[partial_count(1)])
      +- Exchange RoundRobinPartitioning(4)
         +- *(1) FileScan json [] Batched: false, Format: JSON, Location: InMemoryFileIndex[file:/C:/Users/iaroslav/IdeaProjects/sparksandbox/src/main/resources/dataset], PartitionFilters: [], PushedFilters: [], ReadSchema: struct<>

但如果您注释/删除 .repartition(4) 字符串，请注意 TableScan 和partial_count 是在单个阶段内完成的，输出将如下所示：

== Physical Plan ==
*(2) HashAggregate(keys=[], functions=[count(1)])
+- Exchange SinglePartition
   +- *(1) HashAggregate(keys=[], functions=[partial_count(1)])
      +- *(1) FileScan json [] Batched: false, Format: JSON, Location: InMemoryFileIndex[file:/C:/Users/iaroslav/IdeaProjects/sparksandbox/src/main/resources/dataset], PartitionFilters: [], PushedFilters: [], ReadSchema: struct<>

附：请注意，额外的阶段可能会对性能产生重大影响，因为它需要磁盘 I/O（看看here https://stackoverflow.com/questions/58699907/spark-disk-i-o-on-stage-boundaries）并且是某种影响并行化的同步障碍，意味着在大多数情况下 Spark 在第 1 阶段完成之前不会启动第 2 阶段。还是如果repartition提高并行度可能是值得的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

apachesparksql

为什么火花计数动作分三个阶段执行的相关文章

如何使用 with open 在 pySpark 中打开存储在 HDFS 中的文件

如何打开存储在 HDFS 中的文件这里输入文件来自 HDFS 如果我按如下方式提供文件我将无法打开它将显示为找不到文件 from pyspark import SparkConf SparkContext conf SparkConf
将类型安全配置conf文件传递给DataProcSparkOperator

我正在使用 Google dataproc 提交 Spark 作业并使用 google Cloud Composer 来安排它们不幸的是我面临着困难我依靠 conf文件类型安全配置文件将参数传递给我的 Spark 作业我正在将
如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP
createOrReplaceTempView 在 Spark 中如何工作？

我是 Spark 和 Spark SQL 的新手如何createOrReplaceTempView在 Spark 工作如果我们注册一个RDD对象作为表 Spark 会将所有数据保留在内存中吗 createOrReplaceTempVie
将 Spark 添加到 Oozie 共享库

默认情况下 Oozie 共享 lib 目录提供 Hive Pig 和 Map Reduce 的库如果我想在 Oozie 上运行 Spark 作业最好将 Spark lib jar 添加到 Oozie 的共享库而不是将它们复制到应用程序
如何向数据框spark添加标题和列？

我有一个数据框我想在其中添加标题和第一列手动这是数据框 import org apache spark sql SparkSession val spark SparkSession builder master local appN
在 Spark 中将多行汇总为单行和单列

我有一个如下的火花 DF 我需要汇总具有与单行相同 ID 的多行但值应该不同 id values 1 hello 1 hello Sam 1 hello Tom 2 hello 2 hello Tom 预期输出 id values 1 h
如何在 Pyspark 中使用滑动窗口对时间序列数据进行数据转换

我正在尝试根据时间序列数据的滑动窗口提取特征在Scala中似乎有一个sliding函数基于这个帖子 https stackoverflow com a 28863132 3089523 and 文档 http spark apache
在 Databricks / Spark 中的 SQL 中为变量分配动态值

我觉得我一定在这里遗漏了一些明显的东西但我似乎无法在 Spark SQL 中动态设置变量值假设我有两张桌子 tableSrc and tableBuilder 我正在创建tableDest 我一直在尝试变体 SET myVar FLOA
使用列的长度过滤 DataFrame

我想过滤一个DataFrame使用与列长度相关的条件这个问题可能很简单但我在SO中没有找到任何相关问题更具体地说我有一个DataFrame只有一个Column哪一个ArrayType StringType 我想过滤DataFrame
为什么我不需要在 Databricks 中创建 SparkSession？

为什么我不需要在 Databricks 中创建 SparkSession 集群设置的时候会自动创建一个SparkSession吗还是其他人帮我做的这仅在笔记本中完成以简化用户的工作并避免他们指定不同的参数其中许多参数不会产生任何效果
创建涉及 ArrayType 的 Pyspark 架构

我正在尝试为我的新 DataFrame 创建一个架构并尝试了括号和关键字的各种组合但无法弄清楚如何完成这项工作我目前的尝试 from pyspark sql types import schema StructType StructF
pyspark。数据框中的 zip 数组

我有以下 PySpark DataFrame id data 1 10 11 12 2 20 21 22 3 30 31 32 最后我想要以下 DataFrame id data
如何从DataFrame中获取最后一行？

我有一个DataFrame 该DataFrame有两列 value 和 timestamp timestmp 是有序的我想获取DataFrame的最后一行我该怎么办这是我的输入 value timestamp 1 1 4 2 3 3
如何通过数据框中数组列的索引计算平均值

我正在使用 Spark 2 2 我有一个关于合作的基本问题ArrayType 我没有找到可以使用的内置聚合函数 Given a DataFrame有一个柱子id和一列values of ArrayType 我们想按 id 分组然后按索引计
在 pyspark 中包装 java 函数

我正在尝试创建一个用户定义的聚合函数我可以从 python 调用它我试图遵循答案this https stackoverflow com questions 33233737 spark how to map python with s
如何避免连续“重置偏移量”和“寻找最新偏移量”？

我正在尝试遵循本指南 https spark apache org docs latest structed streaming kafka integration html https spark apache org docs late
如何指定spark-submit使用的Python版本？

我有两个版本的Python 当我使用 Spark submit 启动 Spark 应用程序时该应用程序使用默认版本的 Python 但是我想使用另一个如何指定spark submit使用的Python版本您可以设置PYSPARK P
如何在 pySpark 数据框中添加行 ID [重复]

这个问题在这里已经有答案了我有一个 csv 文件我在 pyspark 中将其转换为 DataFrame df 经过一番改造后我想在 df 中添加一列这应该是简单的行 ID 从 0 或 1 开始到 N 我将 df 转换为 rdd 并使
Spark JSON 文本字段到 RDD

我有一个 cassandra 表其中有一个名为 snapshot 的文本类型字段其中包含 JSON 对象 identifier timestamp snapshot 我了解到为了能够使用 Spark 对该字段进行转换我需要将该 RD

随机推荐

jQuery：仅当元素没有类名时才选择它

如何使用 jQuery 仅在没有任何类的情况下选择元素我正在编写一个页面允许 html 作者通过向元素添加一个类来覆盖默认的 jQuery 操作它应该是任何班级所以标记可能是 ul li class override li li l
Visual Studio 2013 和 TFS Build 2015：Devenv.exe 无法生成 MSI 文件

我们正在将 TFS 2013 服务器升级到 TFS 2015 在这方面当我尝试使用我们的 XAML 模板构建脚本已创建在新版本的构建代理上执行应用程序构建时遇到了问题在 TFS 2013 中我们的大多数解决方案在构建时都使用上述模板
jQuery jeditable 点击触发

我需要在我的应用程序中使用内联编辑为此我使用 jQuery 的 Jeditable 插件我想仅在单击元素时触发该元素的可编辑模式这是我的代码不起作用 var tet edit client click function event
使用 gradle 编译时如何将构建目录作为 intellij 中的源目录包含在内

默认情况下 gradle idea 插件将构建文件夹标记为排除如何将此文件夹包含为源文件夹或者避免排除它因为它似乎是默认的在我的模块 build gradle 文件中我尝试了以下两种配置 idea module excludeDi
Tkinter Grid：如何定位小部件以使它们不会粘在一起

我正在尝试创建两个位于测试用户界面左上角和右上角的标签小部件问题是小部件粘在一起我希望它们之间有空间在我的研究中我遇到了使用 Sticky padx 和 pady 选项的建议但无论我传递给 grid 的参数是什么我似乎都无法在小
为什么弹出到 root 在此示例代码 SwiftUI 中不起作用？

为了解决这个问题我提供了最少的示例代码来重新创建错误只需复制粘贴即可运行 import SwiftUI final class Popper ObservableObject Published var shouldProceed S
由于 REPO url 被阻止，Primefaces 依赖项无法导入

我正在开发一个基于 Maven 的 Spring 项目我为 Primefaces 添加了以下依赖项
Angular Reactive Forms Control：如何绑定单选按钮？

我在用着ReactiveFormsModuleAngular2 创建一个包含表单的组件这是我的代码 foo component ts constructor fb FormBuilder this myForm fb group name
Android WebView 需要打开外部 URL 的权限吗？

我正在尝试以下示例但使用外部 URL 使用 WebView http android developers blogspot com 2008 09 using webviews html 该示例展示了如何从资产文件夹 file url
2 个 div 50% 内联块彼此不相邻

我对这个盒子模型有疑问我只在 Blackberry 4 6 上遇到此问题但在 jsbin jsfiddle 上也出现此问题这 2 个 div 应该是 50 因此直接相邻但最后一个出现故障 jsbin http jsbin com o
在 C++ 中实现等价关系（使用 boost::disjoint_sets）

假设您有许多元素并且需要跟踪它们之间的等价关系如果元素A等价于元素B 则它等价于B所等价的所有其他元素我正在寻找一种有效的数据结构来编码这些信息应该可以通过与现有元素的等价来动态添加新元素并且根据该信息应该可以有效地计算新元素等价
F# 类型提供程序用例

我很难掌握类型提供者我想获得一些关于类型提供程序方法对于以下用例的有用性的反馈非常不幸的是我们的遥测 API 返回对象为List
(Python) Flask - request.args.get 返回 NoneType

我需要完成这个网站的就是让它抓住n and s来自输入的值但是执行时request get args每次都返回 None 这是代码 my website py import sqlite3 from flask import Flask
ConstraintLayout 1.1.0 与 1.0.2 不同，是一个 bug 吗？

如果我使用1 0 2 则3个图像的宽度是平均的并且它们的高度是由我设置的收音机计算的如果我使用1 1 0 它们的高度是0dp我什么也看不见除非我设置 android layout height match parent 在根部Cons
在Java中如何比较双精度数序列都“近似相等”？

我在java中有一个返回双精度数字的方法我想比较每次调用该方法比如5次返回的每个双精度数字这样我就可以得出结论每次返回的数字几乎相同我怎样才能做到这一点 public static boolean almostEqual dou
Spring Data Elastic 从 3.x 迁移到 4.x 的索引问题

在我们使用的整体应用程序中JHIPSTER 6 10 5 我们正在使用Spring Data Elastic 版本 3 3 1 with 弹性搜索版本 6 8 8 我们有多个 ManyToOne and OneToMany与 100 多个实
CPU 百分比超过 100 的 Docker 统计信息

我有一个关于 docker stats 命令的问题如果有人可以帮助我我是 Docker 领域的新手我想监控 docker 容器的 cpu 使用情况物理机有 8 个核心 CPU0 CPU7 我已经创建了一个容器并使用以下命令将其 c
asp:BoundField 查看带条件的值

我有一个数据视图
Autofac 在 Web.Config 上丢失注册编辑

我有一个使用 ASP NET MVC 4 WebAPI 和其他一些组件构建的分层 Web 应用程序我使用最新版本的 Autofac 2 6 2 859 作为我的 DI 容器以及 MVC 和 WebAPI 集成我在不同的层中设置了 aut
为什么火花计数动作分三个阶段执行

我已经加载了一个 csv 文件将其重新分区为 4 然后对 DataFrame 进行计数当我查看 DAG 时我发现此操作分 3 个阶段执行为什么这个简单的动作要分三个阶段执行我想第一阶段是加载文件第二阶段是查找每个分区的计数那么

为什么火花计数动作分三个阶段执行

为什么火花计数动作分三个阶段执行 的相关文章

随机推荐

热门标签

为什么火花计数动作分三个阶段执行的相关文章