如何并行运行多个Spark作业？

2024-06-20

一个 Spark 有一个 Oracle 查询。所以我必须并行运行多个作业，以便所有查询同时触发。

如何并行运行多个作业？

引用官方文档作业调度 http://spark.apache.org/docs/latest/job-scheduling.html:

其次，在每个 Spark 应用程序中，如果多个“作业”（Spark 操作）由不同线程提交，则可能会同时运行。

换句话说，单个SparkContext实例可以由多个线程使用，从而能够提交多个可能并行运行也可能不并行运行的 Spark 作业。

Spark作业是否并行运行取决于CPU的数量（Spark不跟踪调度的内存使用情况）。如果有足够的 CPU 来处理多个 Spark 作业的任务，它们将同时运行。

但是，如果 CPU 数量不够，您可以考虑使用公平调度模式 http://spark.apache.org/docs/latest/job-scheduling.html#scheduling-within-an-application（默认为 FIFO）：

在给定的 Spark 应用程序（SparkContext 实例）内，如果多个并行作业是从单独的线程提交的，则它们可以同时运行。在本节中，“作业”是指 Spark 操作（例如保存、收集）以及需要运行以评估该操作的任何任务。 Spark 的调度程序是完全线程安全的，并支持此用例以启用服务多个请求的应用程序（例如，多个用户的查询）。

默认情况下，Spark 的调度程序以 FIFO 方式运行作业。每个作业都分为“阶段”（例如映射和减少阶段），第一个作业在所有可用资源上获得优先级，而其阶段有任务要启动，然后第二个作业获得优先级，依此类推。队列不需要使用整个集群，后面的作业可以立即开始运行，但是如果队列头部的作业很大，那么后面的作业可能会明显延迟。

只是为了把事情弄清楚一点。

spark-submit是提交一个Spark应用程序来执行（不是Spark作业）。单个 Spark 应用程序可以具有at least一份 Spark 工作。
RDD 操作可能会或可能不会阻塞。SparkContext提供两种提交（或运行）Spark 作业的方法，即SparkContext.runJob and SparkContext.submitJob，所以一个动作是否阻塞并不重要，重要的是它是什么SparkContext用于实现非阻塞行为的方法。

请注意，“RDD 操作方法”已经编写完毕，并且它们的实现使用 Spark 开发人员所押注的任何内容（主要是SparkContext.runJob as in count https://github.com/apache/spark/blob/master/core/src/main/scala/org/apache/spark/rdd/RDD.scala#L1162):

// RDD.count
def count(): Long = sc.runJob(this, Utils.getIteratorSize _).sum

您必须编写自己的 RDD 操作（在自定义 RDD 上）才能在 Spark 应用程序中获得所需的非阻塞功能。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

如何并行运行多个Spark作业？的相关文章

SPARK SQL - 当时的情况

我是 SPARK SQL 的新手 SPARK SQL 中是否有相当于 CASE WHEN CONDITION THEN 0 ELSE 1 END 的内容 select case when 1 1 then 1 else 0 end from
fetchsize和batchsize对Spark的影响

我想通过以下方式控制 RDB 的读写速度Spark直接但标题已经透露的相关参数似乎不起作用我可以得出这样的结论吗fetchsize and batchsize我的测试方法不起作用或者它们确实会影响阅读和写作方面因为测量结果基于规模是
Java 中的“Lambdifying”scala 函数

使用Java和Apache Spark 已用Scala重写面对旧的API方法 org apache spark rdd JdbcRDD构造函数其参数为 AbstractFunction1 abstract class AbstractF
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m
Checkpoint RDD ReliableCheckpointRDD 与原始 RDD 的分区数量不同

我有一个由两台机器组成的 Spark 集群当我运行 Spark 流应用程序时出现以下错误 Exception in thread main org apache spark SparkException Checkpoint RDD R
使用 Apache Spark 读取 JSON - `corrupt_record`

我有一个json file nodes看起来像这样 toid osgb4000000031043205 point 508180 748 195333 973 index 1 toid osgb4000000031043206 point
如何使用 log4j 自定义附加程序在 HDFS 上创建日志？

Overview 我们希望使用 log4j 记录 Spark 作业活动并将日志文件写入 HDFS Java 8 Spark 2 4 6 Scala 2 1 2 Hadoop 3 2 1 我们无法找到本地 apache log4j 附加程序
PySpark 使用统计信息写入 Parquet 二进制列（signed-min-max.enabled）

我找到了这张 apache parquet 票https issues apache org jira browse PARQUET 686 https issues apache org jira browse PARQUET 686被标
S3并行读写性能？

考虑 Spark 或任何其他 Hadoop 框架从 S3 读取大型例如 1 TB 文件的场景多个spark执行器如何从S3并行读取非常大的文件在 HDFS 中这个非常大的文件将分布在多个节点上每个节点都有一个数据块在对象存储中
如何使用 PySpark 有效地将这么多 csv 文件（大约 130,000 个）合并到一个大型数据集中？

我之前发布了这个问题并得到了一些使用 PySpark 的建议如何有效地将这一大数据集合并到一个大数据框中 https stackoverflow com questions 60259271 how can i merge this la
从数据块中的数组列获取数据，无需交叉连接

假设我有一张桌子 id array col 101 system x value 1 system y value 2 system z value 3 其中 array col 基本上包含一个结构数组 0 系统 x 值 1 1 系统 y
K均值||用于 Spark 上的情感分析

我正在尝试编写基于Spark的情感分析程序为此我使用了 word2vec 和 KMeans 聚类从 word2Vec 我在 100 维空间中得到了 20k 个单词向量集合现在我正在尝试对这个向量空间进行聚类当我使用默认并行实现运
在 PySpark 中将结构数组扩展为列

我有一个来自 Google Analytics 的 Spark 数据框如下所示 id customDimensions Array
为什么 Apache Spark 会读取嵌套结构中不必要的 Parquet 列？

我的团队正在构建一个 ETL 流程以使用 Spark 将原始分隔文本文件加载到基于 Parquet 的数据湖中 Parquet 列存储的承诺之一是查询将仅读取必要的列条带但我们看到意外的列被读取以获取嵌套模式结构为了进行演示下
Spark中RDD转换的结果是什么？

谁能解释一下结果是什么RDD 转换它是新的数据集数据副本还是只是新的指针集用于过滤旧数据块 RDD 转换允许您在 RDD 之间创建依赖关系依赖关系只是产生结果程序的步骤谱系链依赖字符串中的每个 RDD 都有一个计算其数
在使用 Phoenix 4.5 的 CDH 5.4 上运行 Spark 作业时未找到 PhoenixOutputFormat

我通过重新编译源代码设法在 Cloudera CDH 5 4 上配置 Phoenix 4 5 sqlline py效果很好但火花有问题 spark submit class my JobRunner master yarn deploy
Spark UDF 错误 - 不支持 Any 类型的架构

我正在尝试创建一个 udf 它将列中的负值替换为 0 我的数据框名为 df 包含一列名为 avg x 这是我创建 udf 的代码 val noNegative udf avg acc x Double gt if avg acc x lt
Spark sql 每组前 n 个

我怎样才能获得每组的前n名比如说前10名或前3名 spark sql http www xaprb com blog 2006 12 07 how to select the firstleastmax row per group in
Pyspark 应用程序仅部分利用 dataproc 集群资源

我的 pyspark 应用程序在 106 36 MB 数据集 817 270 条记录上运行 UDF 使用常规 python lambda 函数大约需要 100 小时我创建了一个 Google Dataproc 集群其中包含 20 个工
从单个字符串创建 Spark DataFrame

我正在尝试采用硬编码字符串并将其转换为 1 行 Spark DataFrame 具有单列类型StringType 这样 String fizz buzz 将得到一个 DataFrame 其 show 方法如下 fizz buzz 迄今为止我

随机推荐

Bash：读入多个局部范围变量

根据这个答案 https stackoverflow com a 1952480 582917 https stackoverflow com a 1952480 582917 我可以读入并因此分配多个变量但是我希望这些变量是 bash
为 PInvoke 正确声明 SP_DEVICE_INTERFACE_DETAIL_DATA

The SP DEVICE INTERFACE DETAIL DATA http msdn microsoft com en us library windows hardware ff552343 aspx结构 typedef struc
MYSQL从每个类别中随机选择一条记录

我有一个数据库Items表看起来像这样 id name category int 有几十万条记录每个item可以是 7 种不同的之一categories 对应于categories table id category 我想要一个从每个类别
单击一次，“您的 Web 浏览器设置不允许您运行未签名的应用程序。！

我们正在尝试部署一个未签名的 clickonce 应用程序对于某些用户来说此操作会失败并出现以下错误而对于其他用户来说则没有问题这可能是某处的安全设置但我们一直无法找到它有关如何允许安装此应用程序的任何提示禁止签名 PLATF
PowerShell 中的变量作用域

PowerShell 的一个遗憾是函数和脚本块是动态作用域的但另一件事让我感到惊讶的是变量在内部作用域内表现为写时复制 array g function foo array h Write Host array array s Writ
在主机和子docker之间共享图像

我读了这篇文章http blog docker io 2013 09 docker can now run within docker http blog docker io 2013 09 docker can now run withi
如何包含字符串标头？

我正在尝试了解strings 但不同的来源告诉我要包含不同的标头有人说用
有没有办法将 AssertJ 断言与 Spring MVC 测试一起使用？

我在项目中使用 AssertJ 一段时间了最近我开始使用 Spring MVC Test 来测试 Spring MVC 控制器但我不知道如何使用 AssertJ 我在网上看到的所有示例都使用 Hamcrest 和 Spring MVC
对包含元组的元组进行排序[重复]

这个问题在这里已经有答案了我有以下元组其中包含元组 MY TUPLE A Apple C Carrot B Banana 我想根据以下内容对这个元组进行排序second内部元组中包含的值即对 Apple Carrot Banana
R 中的字符串作为函数参数

数据框chocolates列出了糖果的类型以及每种糖果的一组评级 ID sweetness filling crash snickers 0 67 0 55 0 40 milky way 0 81 0 53 0 56 我正在编写一个函数它
主干视图 DOM 元素已删除

我一直在阅读有关 Backbone js 僵尸或内存泄漏问题的信息基本上当您不再需要该元素时您必须从 DOM 中解除绑定并删除该元素以确保所有事件也被删除现在我有一个包含几个容器的单页应用程序 div div div div
将现有 VARCHAR 列与 Room 结合使用

我正在尝试将现有的数据库与 Android Room 一起使用但是我的一个表有一个 VARCHAR 列 Room 似乎只支持 TEXT 不支持 VARCHAR 而且 sqlite 不允许修改列类型那么有没有办法使用Room中现有的带
如何检查字符串是否为有效日期

我有一个字符串 31 02 2010 并想检查它是否是有效日期最好的方法是什么我需要一个方法如果字符串是有效日期则返回 true 如果不是则返回 false require date begin Date parse 31 02
特征实施尺寸

我知道特征和切片的大小是不确定的即在编译时不可能知道它们的大小例如任何类型都可以实现特征但该类型可能无法调整大小然而这个示例代码是否意味着每个实现特征的类型Foo需要实施Sized too trait Foo Sized stru
Calendly 未在 Webflow 中预填写表单

我在 Webflow 项目中使用 Calendly 并且它有效不过我想在 Calendly 中预先填写表格这里有一个指南 https help calendly com hc en us articles 226766767 Pre
GitHub API 获取用户/组织总数

Using GitHub API https developer github com v3 如何计算请求时的用户组织总数 Users https developer github com v3 users and 组织机构 https
time_select 表单助手将新时间对象解释为 UTC，而不是配置的时区

我遇到了对我来说似乎很简单的问题但我无法弄清楚我做错了什么在我的应用程序中用户可以通过简单的 form for 添加他们的课程他们可以输入课程讲座的开始时间和结束时间如下所示 div class field Start Time
序列的排列？

我有具体数量的数字现在我想以某种方式显示这个序列的所有可能的排列例如如果数字数量为3 我想显示 0 0 0 0 0 1 0 0 2 0 1 0 0 1 1 0 1 2 0 2 0 0 2 1 0 2 2 1 0 0 1 0 1 1 0
服务层和存储库

我使用 MVC 框架已经有一段时间了我真的很喜欢如何分离关注点我养成了让控制器做大量工作的坏习惯所以我真的在寻求一些建议当我第一次开始使用 MVC 时我经常在数据库工作完成后让控制器对模型进行操作我知道这很糟糕所以将这项工作转
如何并行运行多个Spark作业？

一个 Spark 有一个 Oracle 查询所以我必须并行运行多个作业以便所有查询同时触发如何并行运行多个作业引用官方文档作业调度 http spark apache org docs latest job scheduling h

如何并行运行多个Spark作业？

如何并行运行多个Spark作业？ 的相关文章

随机推荐

热门标签

如何并行运行多个Spark作业？的相关文章