Spark作业是什么？

2024-04-03

我已经完成了 Spark 安装并执行了一些设置主节点和工作节点的测试用例。也就是说，我对 Spark 上下文（而不是 SparkContext）中的作业到底意味着什么感到非常困惑。我有以下问题

工作与驱动程序有多么不同。
应用程序本身是驱动程序的一部分？
Spark 提交在某种程度上是一项工作吗？

我读了Spark文档 https://spark.apache.org/docs/1.1.0/cluster-overview.html但这件事对我来说仍然不清楚。

话虽如此，我的实现是编写 Spark 作业{以编程方式} 来进行 Spark 提交。

如果可能的话，请帮忙举一些例子。这会很有帮助。

Note：请不要发布火花链接，因为我已经尝试过。尽管这些问题听起来很幼稚，但我仍然需要更清晰的理解。

嗯，术语总是很困难，因为它取决于上下文。在很多情况下，您可以用来“向集群提交作业”，这对于 Spark 来说就是提交驱动程序。

也就是说，Spark 对“工作”有自己的定义，直接来自术语表：

作业由多个任务组成的并行计算，得到响应 Spark 操作而生成（例如保存、收集）；你会看到的该术语用在驱动程序日志中。

因此，在这种情况下，假设您需要执行以下操作：

将包含人员姓名和地址的文件加载到 RDD1 中
将包含人名和电话的文件加载到 RDD2 中
按名称连接 RDD1 和 RDD2，得到 RDD3
在 RDD3 上进行映射，为每个人获取一个漂亮的 HTML 演示卡作为 RDD4
将 RDD4 保存到文件。
映射 RDD1 以从地址中提取邮政编码以获得 RDD5
聚合 RDD5 以获取 RDD6 中每个邮政编码上居住的人数
收集 RDD6 并将这些统计信息打印到标准输出。

So,

The 驱动程序是整段代码，运行所有 8 个步骤。
在步骤 5 中生成整个 HTML 卡集是job（很清楚，因为我们正在使用save行动，而不是转变）。与collect在第 8 步
其他步骤将被组织成stages，每个作业都是一系列阶段的结果。对于简单的事情，作业可以有一个阶段，但需要重新分区数据（例如，第 3 步中的联接）或任何破坏数据局部性的事情通常会导致出现更多阶段。您可以将阶段视为产生中间结果的计算，这些结果实际上可以被持久化。例如，我们可以保留 RDD1，因为我们将多次使用它，从而避免重新计算。
以上3个基本上都讨论了如何logic给定的算法将会被破坏。相比之下，一个task是一个特定的一条数据它将在给定的执行者上经历给定的阶段。

希望它能让事情变得更清楚;-)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

batchprocessing

jobscheduling

Spark作业是什么？的相关文章

使用spark-sql从oracle加载数据时如何增加默认精度和小数位数

尝试从 oracle 表加载数据其中我有几列保存浮点值有时它最多保存 DecimalType 40 20 即点后 20 位数字目前当我使用加载其列时 var local ora df DataFrameReader ora df l
Spark 对 RDD 中按值排序

我有一个火花对 RDD 键计数如下 Array String Int Array a 1 b 2 c 1 d 3 使用spark scala API如何获取按值排序的新RDD对所需结果 Array d 3 b 2 a 1 c 1 这应
从apache Spark中的文本文件查找rdd中存储的数据大小

我是 Apache Spark 版本 1 4 1 的新手我编写了一段小代码来读取文本文件并将其数据存储在 Rdd 中有没有一种方法可以获取 rdd 中数据的大小这是我的代码 import org apache spark SparkC
如何获取使用 concat_ws 生成的结果的大小？

我正在表演groupBy在 COL1 上并使用 COL2 的串联列表concat ws 我怎样才能获得该列表中的值的计数这是我的代码 Dataset
Spark 写入 hdfs 无法使用 saveAsNewAPIHadoopFile 方法

我在 CDH 5 2 0 上使用 Spark 1 1 0 并试图确保我可以读取和写入 hdfs 我很快意识到 textFile 和 saveAsTextFile 调用旧的 api 并且似乎与我们的 hdfs 版本不兼容 def testHD
如何在 PySpark 中累计聚合一天内超过“1 小时”的窗口

我有一个如下所示的 Spark DataFrame group id event time XXXX 2017 10 25 14 47 02 717013 XXXX 2017 10 25 14 47 25 444979 XXXX 2017
在S3中捕获Kubernetes Spark驱动程序和执行程序日志并在历史服务器中查看

我正在 Kubernetes 上使用 Spark submit cli 运行 Spark 3 0 0 和 Hadoop 2 7 如下所示 spark submit master k8s https api k8s my domain com
在地图类型中创建 DataFrame 分组列

My 数据框具有以下结构 df spark createDataFrame B a 10 B b 20 C c 30 Brand Type Amount df show Brand Type Amount B a 10 B b 20 C c
Spark如何选择节点来运行执行器？（spark on YARN）

Spark如何选择节点来运行执行器 spark on YARN 我们使用 Spark on Yarn 模式集群有 120 个节点昨天一个 Spark 作业创建了 200 个执行程序而节点 1 上有 11 个执行程序 Node2上有1
Scala Sparkcollect_list() 与 array()

有什么区别collect list and array 在 Spark 中使用 scala 我看到到处都有使用情况但我不清楚用例来确定差异尽管两者array https spark apache org docs latest api
将类型安全配置conf文件传递给DataProcSparkOperator

我正在使用 Google dataproc 提交 Spark 作业并使用 google Cloud Composer 来安排它们不幸的是我面临着困难我依靠 conf文件类型安全配置文件将参数传递给我的 Spark 作业我正在将
Spark Streaming 中是否需要检查点

我注意到 Spark 流示例也有检查点代码我的问题是检查点有多重要如果是为了容错那么在此类流应用程序中发生故障的频率是多少这一切都取决于您的用例假设您正在运行一个流作业它仅从 Kafka 读取数据并计算记录数如果您的应用程序在
如何检查SparkContext是否已停止？

如何检测是否SparkContext http spark apache org docs latest programming guide html已经stopped https spark apache org docs latest
从 pySpark 中的字典构建一行

我正在尝试在 pySpark 1 6 1 中动态构建一行然后将其构建到数据帧中总体思路是扩展结果describe例如包括偏斜和峰度这是我认为应该起作用的 from pyspark sql import Row row dict C0
当我们在 Apache Spark 中使用时，无法找到 Set([TOPIC NAME,0])) 的领导者

我们使用 Apache Spark 1 5 1 和 kafka 2 10 0 8 2 1 以及 Kafka DirectStream API 通过 Spark 从 Kafka 获取数据我们使用以下设置在 Kafka 中创建了主题复制因子
如何在 Pyspark 中使用滑动窗口对时间序列数据进行数据转换

我正在尝试根据时间序列数据的滑动窗口提取特征在Scala中似乎有一个sliding函数基于这个帖子 https stackoverflow com a 28863132 3089523 and 文档 http spark apache
PySpark DataFrame 上分组数据的 Pandas 式转换

如果我们有一个由一列类别和一列值组成的 Pandas 数据框我们可以通过执行以下操作来删除每个类别中的平均值 df DemeanedValues df groupby Category Values transform lambda g
对 Spark 数据集中的数字字符串进行排序

假设我有以下内容Dataset productCode amount XX 13 300 XX 1 250 XX 2 410 XX 9 50 XX 10 35 XX 100 870 Where productCode is of Strin
如何在 Spark 数据帧 groupBy 中执行 count(*)

我的目的是做相当于基本sql的事情 select shipgrp shipstatus count cnt from shipstatus group by shipgrp shipstatus 我见过的 Spark 数据帧的示例包括其他列
Spark SQL/Hive 查询通过 Join 永远持续下去

所以我正在做一些应该很简单的事情但显然它不在 Spark SQL 中如果我在 MySQL 中运行以下查询查询将在不到一秒的时间内完成 SELECT ua address id FROM user u inner join user a

随机推荐

将 CIELab 转换为 CIELCh(ab) 未产生正确结果

我很难用计算器手动将 CIELab 转换为 CIELCh 根据http www easyrgb com en math php http www easyrgb com en math php 以下是通过从弧度到度数从 CIELab 到 C
如何在颤振中的圆角容器上添加彩色底部边框？

我正在尝试创建一个带有彩色底部边框一侧的圆角容器我尝试对它们应用边框半径和 borderSide 颜色但似乎出现错误并且小部件无法渲染 Container margin EdgeInsets only top 15 0 decor
EPPlus 可以区分 Excel 工作表中的空白单元格和空文本单元格吗？

我正在使用 EPPlus NET 库 v4 0 4 来解释保存的 Excel 工作簿在这样一个工作表中一些空单元格已使用 Excel 撇号技巧设置为文本格式即用户在这些单元格中输入了单个撇号以便 Excel 将它们显示为空白
java.lang.NoSuchMethodError：org.apache.xerces.impl.xs.XMLSchemaLoader.loadGrammar

当我尝试使用 Maven 构建我的第一个项目时出现以下异常 SEVERE Critical error during deployment java lang NoSuchMethodError org apache xerces imp
在Java中为同一个字符串创建两个字符串对象的字符串池[重复]

这个问题在这里已经有答案了可能的重复 Java 字符串和 StringPool https stackoverflow com questions 1903094 java strings and stringpool 我创建了两个字符串
Jekyll 服务不起作用：看起来您没有安装 pygments 或其依赖项之一

Configuration file Users andrechristoga Documents type theme config yml Deprecation You appear to have pagination turned
为什么路由防护 canLoad 不触发，但 canActivate 却触发

我有一个 Angular 2 0 1 最终版应用程序它使用哈希位置策略为路线导航策略我将其中一条路线定义如下 path shiftmanage component ShiftManageComponent canLoad AuthGu
如何使用 ActivePerl 运行 Perl 脚本？

我最近刚刚在我的 Windows XP 上安装了 ActivePerl 5 12 2 1202C Perl 我是 Perl 脚本新手我只想运行一个 Perl 程序其中包含一个print语句我将其保存在记事本中名称为ex pl 我怎样
使用 xarray 插值周期边界

我想插入很多xarray数据集包含一个公共网格的全球气候数据 xarray实际上有一个interp http xarray pydata org en stable interpolation html 工作正常的方法但据我所知没有考虑
Spring Boot 是否自动解析 javax 和 hibernate 验证注解中的消息键

我正在编写一个 Spring Boot 应用程序我想知道 Spring Boot 是否自动解析 javax 和 hibernate 验证注释中的消息键例如 NotEmpty message message key String name
刷新页面删除引导选择样式

我正在使用 bootstrap select 并且我是前端新手我正在尝试在我的页面中实现 bootstrap 的多选组件但是问题我面临的是当我将页面提交到服务器时如果发生错误它会从选择框中删除所有 css 类并仅显示多选列表而
在 django.core.urlresolvers reverse() 调用中包含查询字符串

我正在尝试反转命名 URL 并在其中包含查询字符串基本上我修改了登录功能我想发送 next in it 这就是我现在正在做的事情 reverse name next reverse redirect 这是我想做的 reverse nam
如何解析节点名称中包含无效字符的 XML？

所以我试图解析一些 XML 其创建不在我的控制之下问题是他们以某种方式得到了如下所示的节点
尝试通过 HTTPS 传递 swagger.json 时出现“未提供规范”错误

如果我尝试使用 Flask RestPlus 通过 HTTPS 交付 Swagger UI 我只会在根 URL 处看到未提供规范错误消息并且完整的 Swagger UI 永远不会加载但是如果我访问 API 端点它们会按预期返回响
无法安装 .NET Standard 2.0

我正在尝试创建一个 NET Standard 2 0 项目但是在项目属性页面上它仅具有最高 NET Standard 1 6 的选项我转到 Visual Studio gt 工具 gt 扩展和更新 gt 更新 gt 产品更新并将 Vi
删除对象的私有属性

尝试并搜索了这个但似乎从未在 SO 中找到它尝试使用unset this gt property name 但当我使用时它仍然出现print r object name 是否不可能删除对象的私有属性这是一个示例代码 class my
ASP.NET 5 中的 URL 重写

我使用的是 ASP NET 5 其中整个文件夹结构已更改并且 web config 已替换与以前的 ASP NET 版本相比我正在使用 angularJS 进行客户端路由并且我有以下路线 when movies add templa
如何使 CPAN::Meta::Spec 的“先决条件”需要发行版而不是软件包？

我正在研究如何打包我的一些 Perl 应用程序并更好地管理它们的依赖项以使我和我的客户更容易分发这很可能根本不包括上传到 CPAN 相反如果有必要我会提供自定义存储库或者更可能的是访问 Subversion 等 SCM CPAN
你能以编程方式获取 Firefox 附加组件列表吗

在查看了缓存等之后我花了相当多的时间试图确定为什么我的网站视图与客户端不匹配我们确定问题出在其中一个附加组件上在这种特殊情况下为 Adblock Plus 如果我们能够有一种简单的方法来查询安装了哪些附加组件并且最好是处于活动状态
Spark作业是什么？

我已经完成了 Spark 安装并执行了一些设置主节点和工作节点的测试用例也就是说我对 Spark 上下文而不是 SparkContext 中的作业到底意味着什么感到非常困惑我有以下问题工作与驱动程序有多么不同应用程序本身是驱动程

Spark作业是什么？

Spark作业是什么？ 的相关文章

随机推荐

热门标签

Spark作业是什么？的相关文章