“spark.yarn.executor.memoryOverhead”和“spark.memory.offHeap.size”之间的区别

2023-11-22

我在纱线上运行火花。我不明白以下设置有什么区别spark.yarn.executor.memoryOverhead and spark.memory.offHeap.size。两者似乎都是为 Spark 执行器分配堆外内存的设置。我应该使用哪一个？另外，执行器堆外内存的推荐设置是什么？

非常感谢！

TL;DR:对于 Spark 1.x 和 2.x，总堆外内存 =spark.executor.memoryOverhead（spark.offHeap.size 包含在其中）对于 Spark 3.x，总堆外内存 =spark.executor.memoryOverhead + spark.offHeap.size（信用来自这一页)

详细解释：

spark.executor.memoryOverhead由 YARN 等资源管理使用，而spark.memory.offHeap.size由 Spark 核心（内存管理器）使用。根据版本的不同，关系略有不同。

Spark 2.4.5 及之前版本：

spark.executor.memoryOverhead应包括spark.memory.offHeap.size。这意味着如果您指定offHeap.size，您需要手动添加这部分到memoryOverhead对于纱线。从下面的代码中可以看出YarnAllocator.scala，当 YARN 请求资源时，它不知道任何关于offHeap.size:

private[yarn] val resource = Resource.newInstance(
    executorMemory + memoryOverhead + pysparkWorkerMemory,
    executorCores)

然而，Spark 3.0 中的行为发生了变化：

spark.executor.memoryOverhead不包括spark.memory.offHeap.size不再了。 YARN 将包括offHeap.size当您请求资源时。从新文档:

注意：额外内存包括 PySpark 执行程序内存（当未配置 Spark.executor.pyspark.memory 时）和同一容器中运行的其他非执行程序进程使用的内存。容器对运行执行器的最大内存大小由spark.executor.memoryOverhead、spark.executor.memory、spark.memory.offHeap.size和spark.executor.pyspark.memory之和确定。

并从code你还可以告诉：

private[yarn] val resource: Resource = {
    val resource = Resource.newInstance(
      executorMemory + executorOffHeapMemory + memoryOverhead + pysparkWorkerMemory, executorCores)
    ResourceRequestHelper.setResourceRequests(executorResourceRequests, resource)
    logDebug(s"Created resource capability: $resource")
    resource
  }

有关此更改的更多详细信息，您可以参考这个请求请求.

对于第二个问题，执行器堆外内存的推荐设置是什么？这取决于您的应用程序，并且您需要一些测试。我发现this页面有助于进一步解释：

堆外内存是减少 GC 暂停的好方法，因为它不在 GC 的范围内。然而，它带来了序列化和反序列化的开销。后者反过来又使得堆外数据有时可以放入堆内存中，从而暴露给 GC。此外，Project Tungsten（字节数组）带来的新数据格式有助于减少 GC 开销。这两个原因使得 Apache Spark 应用程序中堆外内存的使用应该仔细规划，尤其是测试。

BTW, spark.yarn.executor.memoryOverhead已弃用并更改为spark.executor.memoryOverhead，这对于 YARN 和 Kubernetes 来说很常见。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

hadoopyarn

“spark.yarn.executor.memoryOverhead”和“spark.memory.offHeap.size”之间的区别的相关文章

如何在 Mac 上使用 homebrew 安装 apache-spark 2.3.3

brew install apache spark只安装最新版本的 Spark 2 4 和 brew search apache spark没有给出任何其他选项有没有办法用自制程序安装旧版本的 Spark Type brew tap ed
在 kubernetes 上安装 PySpark 软件包时出现 Spark-Submit：ivy-cache 文件未找到错误

我一整天都在与它斗争我能够安装并使用带有 Spark shell 或连接的 Jupiter 笔记本的包 graphframes 但我想使用 Spark Submit 将其移动到基于 kubernetes 的 Spark 环境我的火花版
Spark：出现心跳错误后丢失数据

我有一个在 Spark 集群上运行的 Python 程序有四个工作线程它处理一个包含大约 1500 万条记录的巨大 Oracle 表检查结果后发现大约有600万条记录没有插入我的写入功能如下 df write format jdbc
如何将模型从 ML Pipeline 保存到 S3 或 HDFS？

我正在尝试保存 ML Pipeline 生成的数千个模型正如答案中所示here https stackoverflow com questions 32121046 run 3000 random forest models by gro
如何根据 Pyspark 中另一列的表达式评估有条件地替换列中的值？

import numpy as np df spark createDataFrame 1 1 None 1 2 float 5 1 3 np nan 1 4 None 0 5 float 10 1 6 float nan 0 6 floa
过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
Spark日期格式问题

我在火花日期格式中观察到奇怪的行为实际上我需要转换日期yy to yyyy 日期转换后日期应为 20yy 我尝试过如下 2040年后失败 import org apache spark sql functions val df Seq
更改 Spark SQL 中的 Null 顺序

我需要能够按升序和降序对列进行排序并且还允许空值位于第一个或空值位于最后一个使用 RDD 我可以将 sortByKey 方法与自定义比较器结合使用我想知道是否有使用 Dataset API 的相应方法我了解如何将 desc asc
如何读取一次流数据集并输出到多个接收器？

我有 Spark 结构化流作业它从 S3 读取数据转换数据然后将其存储到一个 S3 接收器和一个 Elasticsearch 接收器目前我正在做readStream一次然后writeStream format start 两次这
Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

我在 EMR 4 6 0 Spark 1 6 1 上运行此代码 val sqlContext SQLContext getOrCreate sc val inputRDD sqlContext read json input try inp
Spark：如何使用crossJoin

我有两个数据框 df1有 100000 行并且df2有 10000 行我想创建一个df3这是两者的交叉连接 val df3 df1 crossJoin df2 这将产生 10 亿行尝试在本地运行它但似乎需要很长时间您认为本地可以实现
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文
将 Tuple2 的值部分（即映射）合并为按 Tuple2 的键分组的单个映射

我在 Scala 和 Spark 中这样做我有和Dataset of Tuple2 as Dataset String Map String String 下面是值的示例Dataset A 1 gt 100 2 gt 200 3 gt 1
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
如何加速spark df.write jdbc到postgres数据库？

我是 Spark 新手正在尝试使用 df write 加速将数据帧的内容可以有 200k 到 2M 行附加到 postgres 数据库 df write format jdbc options url psql url spark d
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
Sqoop - 绑定到 YARN 队列

因此使用 MapReduce v2 您可以使用绑定到某些 YARN 队列来管理资源和优先级基本上通过使用 hadoop jar xyz jar D mapreduce job queuename QUEUE1 input output
Spark SQL sql("").first().getDouble(0) 给我不一致的结果

我有下面的查询它应该找到列值的平均值并返回一个数字的结果 val avgVal hiveContext sql select round avg amount 4 from users payment where dt between 2
Apache Spark 两个 RDD 之间的差异

假设我有这个示例作业在带有 Java API 的 Groovy 中 def set1 def set2 0 upto 10 set1 lt lt it 8 upto 20 set2 lt lt it def rdd1 context pa

随机推荐

将字符串拆分为相同字母的块[重复]

这个问题在这里已经有答案了这很容易我就是做不到在这个例子中我想做的就是将下面的字符串分割成彼此相邻的相同字母块例如在下面的示例中 test AAATGG 将被拆分为 AAA T GG 我一直在尝试不同的方法下面是一个例子我将不
django settings.py中的“os.environ”无法使用apache和wsgi获取系统环境变量

我这样设置 djangosetting py import os from django core exceptions import ImproperlyConfigured def get env variable var name t
JavaScript REST 客户端库 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南目前不接受答案是否有一个 JavaScript 库允许我执行所有 REST 操作例如 GET POST PUT and DELETE over HTTP or
colspan 网格视图行

我已将行添加到 gridview 中 gridview中有20列我如何在 gridview 中执行类似 colspan 的功能该功能可以在 2 3 列下显示 2 3 行并保留为 colspan 基本上我希望在 gridview 的行上
无法使用 Windows 身份验证登录 SQL Server [已关闭]

Closed 这个问题是无关目前不接受答案我刚刚安装了 SQL Server 2012 并打开 SQL Server Management Studio 当我尝试登录时出现此问题无法连接到我的问题是我如何知道服务器名称是什么当我转
Google 地图上的自定义点击窗口

我只是在看其中的一个谷歌地图在 iPhone 中实现包含标签和按钮如何在 Android 中获得这种包含标签按钮和图像的窗口请向我提供相同的来源 Stone 我已经给出了这个问题的答案但我还有另一个答案与上图中您想要的相同 pa
当其他应用程序在 Android 中使用麦克风时，无法访问麦克风

我使用以下 URL 中的代码通过 AudioRecord 从麦克风获取声音数据 http www dreamincode net forums topic 303235 visualizing sound from the micropho
如何快速将分钟添加到当前时间

我是 Swift 新手正在尝试调度程序我选择了开始时间需要在开始时间上添加 5 分钟或其倍数并将其显示在UILabel IBAction func timePickerClicked sender UIDatePicker var
有没有办法从 bash 运行 zip 文件中的 python 脚本？

我知道有一种方法可以使用 python 导入 zip 文件中的模块我在 zip 文件中创建了一种自定义 python 包库我也想将我的任务脚本放入这个包中这些脚本正在使用该库然后使用 bash 我想调用 zip 文件中所需的脚
cmdlet 如何知道何时真正应该调用 WriteVerbose()？

cmdlet 如何知道何时really应该打电话WriteVerbose WriteDebug 等等也许我错过了一些简单的事情但我找不到答案所有 cmdlet 到目前为止我见过的实现只是调用WriteVerbose 没有任何犹豫我
在solaris中获取昨天的日期

我正在运行 SunOS bash 3 00 uname a SunOS lvsaishdc3in0001 5 10 Generic 142901 02 i86pc i386 i86pc 我需要找到Yesterday s date in li
如何在 web.xml 中的标记中指定根上下文？

我想在 WAR 文件中指定 Java Web 应用程序的根上下文我怎样才能使用有效的方法来做到这一点web appXML 中的web xml file 哦是的我想以与应用程序服务器无关的方式执行此操作这不能以与应用程序服务器无关的方
Typescript：我可以定义一个 n 长度的元组类型吗？

我正在使用 Typescript 创建一个将棋游戏板将棋盘有 9 个等级我想将 9x9 多维数组断言为一种类型以确保数组的大小和内容目前我正在这样创建 9x9 板类型 type Board9x9 p P P P P P P P P
numpy.array 形状 (R, 1) 和 (R,) 之间的区别

In numpy 一些操作恢复原状 R 1 但有些返回 R 这将使矩阵乘法更加繁琐因为显式reshape是必须的例如给定一个矩阵M 如果我们想做numpy dot M 0 numpy ones 1 R where R是行数当然同样
如何从颜色资源中获取 color-int？

有什么方法可以从颜色资源中获取 color int 吗我试图获取资源 R color myColor 中定义的颜色的各个红色蓝色和绿色分量以便我可以将三个搜索栏的值设置为特定级别您可以使用 getResources getColor
如何从android中的gradle依赖项添加的外部库目录中删除jar文件？

首先我在gradle中添加了依赖然后同步项目我们没有错误但是当我们运行应用程序时我们收到了一个错误该错误也显示在图像中 app transformClassesWithJarMergingForDebug FAILED Erro
AppEngine Channel API - 检查通道是否仍然打开的最佳方法（服务器端）

我已经在 AppEngine 上构建了一个社交网络约会类型应用程序目前正在添加基于 Channel API 构建的聊天然而我遇到的问题是用户可能会在聊天时重新加载或导航到新页面就像在 Facebook 中一样这意味着服务器不容易
Windows 上的 PHP PDO 安装 (xampp)

我正在尝试开发一个可以在 PHP 上连接到尽可能多的不同数据库的 Web 应用程序 PDO http www php net manual en book pdo php 似乎是正确的接口但我在安装我需要的所有不同 PDO 数据库驱动程序
使用 Qt 4.4 的自定义停靠区域

是否可以使用 Qt 4 4 创建自定义停靠区域我知道这在 Qt 3 中是可能的因为document建议摘自文档如果您需要创建自己的停靠区域我们建议您创建 QWidget 的子类并将 Q3DockAreas 添加到您的子类然而在
“spark.yarn.executor.memoryOverhead”和“spark.memory.offHeap.size”之间的区别

我在纱线上运行火花我不明白以下设置有什么区别spark yarn executor memoryOverhead and spark memory offHeap size 两者似乎都是为 Spark 执行器分配堆外内存的设置我应该使用

“spark.yarn.executor.memoryOverhead”和“spark.memory.offHeap.size”之间的区别

“spark.yarn.executor.memoryOverhead”和“spark.memory.offHeap.size”之间的区别 的相关文章

随机推荐

热门标签

“spark.yarn.executor.memoryOverhead”和“spark.memory.offHeap.size”之间的区别的相关文章