什么是spark.driver.maxResultSize？

2023-12-28

The ref http://spark.apache.org/docs/latest/configuration.html says:

每个分区的所有分区的序列化结果总大小的限制激发行动（例如收集）。应至少为 1M，或 0 无限。如果总大小超过此限制，作业将被中止。具有较高的限制可能会导致驱动程序内存不足错误（取决于关于spark.driver.memory和JVM中对象的内存开销）。环境适当的限制可以保护驱动程序免受内存不足错误的影响。

这个属性具体有什么作用呢？我的意思是，一开始（因为我没有与因内存不足错误而失败的工作作斗争）我认为我应该增加它。

再想一想，这个属性似乎定义了工作人员可以发送给驱动程序的结果的最大大小，因此将其保留为默认值（1G）将是保护驱动程序的最佳方法。

但在这种情况下，工作人员将不得不发送更多消息，因此开销只是工作会变慢？

如果我理解正确的话，假设一个worker想要发送4G的数据给driver，那么有spark.driver.maxResultSize=1G，将导致工作人员发送 4 条消息（而不是无限发送 1 条消息）spark.driver.maxResultSize）。如果是这样，那么增加该属性来保护我的驱动程序不被 Yarn 暗杀应该是错误的。

但上面的问题仍然存在..我的意思是，如果我将其设置为 1M（最小值），这会是最具保护性的方法吗？

假设工作人员想要向驱动程序发送 4G 的数据，那么 Spark.driver.maxResultSize=1G 将导致工作人员发送 4 条消息（而不是发送 1 条无限制的 Spark.driver.maxResultSize）。

否。如果数据的估计大小大于maxResultSize给定的作业将被中止。这里的目标是保护您的应用程序免受驱动程序丢失的影响，仅此而已。

如果我将其设置为 1M（最小值），这是否是最具保护性的方法？

从某种意义上来说是的，但显然在实践中没有什么用处。良好的价值应该允许应用程序正常进行，但可以保护应用程序免受意外情况的影响。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

configuration

Driver

Communication

distributedcomputing

什么是spark.driver.maxResultSize？的相关文章

如何在supervisord中设置组？

因此我正在设置 Supervisord 并尝试控制多个进程并且一切正常现在我想设置一个组以便我可以启动停止不同的进程集而不是全部或全无这是我的配置文件的片段 group tapjoy programs tapjoy game1
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
Akka :: 调度程序 [%name%] 未配置，使用默认调度程序

我创建了以下 application conf akka actor prio dispatcher type Dispatcher mailbox type my package PrioritizedMailbox 当转储配置时 act
YARN UNHEALTHY 节点

在我们的 YARN 集群已满 80 的情况下我们看到一些纱线节点管理器被标记为不健康在深入研究日志后我发现这是因为数据目录的磁盘空间已满 90 出现以下错误 2015 02 21 08 33 51 590 INFO org apach
根据 pyspark 中的条件从数据框中删除行

我有一个包含两列的数据框 col1 col2 22 12 2 1 2 1 5 52 1 2 62 9 77 33 3 我想创建一个新的数据框它只需要行 col1 的值 gt col2 的值就像注释一样col1 很长类型和col2 有双
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？

尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo
在 Laravel 中动态设置数据库连接和语言

我有 3 个域指向同一个Laravel应用我想要的是每个人都连接到自己的数据库并根据 TLD 加载自己的语言文件我可以在哪个文件中设置这些设置我可以直接在配置文件中执行此操作或者可以在加载配置之前执行某些事件我拥有的是一个简短的函
火花内存不足

我有一个文件夹里面有 150 G 的 txt 文件大约 700 个文件平均每个 200 MB 我使用 scala 来处理文件并最终计算一些汇总统计数据我认为有两种可能的方法可以做到这一点手动循环所有文件对每个文件进行计算并最终合
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
如何强制 MSBuild 清理或重建？

我正在使用脚本中的 MSBuild 来编译我的项目我注意到它只是进行构建而不是清理重建我有以下内容
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
如何根据“配置管理器”创建自己定义的常量？

当我选择调试配置时 DEBUG常数处于活动状态当我选择释放配置时 DEBUG常量处于非活动状态我如何创建自己的配置以便它们包含我自己定义的常量基本上我想要这样如果我选择配置 FOOBAR 就会有一个常量FOO and B
Windows 等效的系统配置目录

我正在 Ruby 中开发一个 CLI 应用程序我希望允许通过标准配置文件级联在 Unix 中进行配置 etc appnamerc appnamerc 然而该应用程序也应该在 Windows 环境中运行我不确定将像这样的文件放在哪里 e
缩放数据框的每一列

我正在尝试缩放数据框的每一列首先我将每一列转换为向量然后使用 ml MinMax Scaler 除了简单地重复它之外是否有更好更优雅的方法将相同的函数应用于每一列 import org apache spark ml linalg
DataFrame 分区到单个 Parquet 文件（每个分区）

我想重新分区合并我的数据以便将其保存到每个分区的一个 Parquet 文件中我还想使用 Spark SQL partitionBy API 所以我可以这样做 df coalesce 1 write partitionBy entity
如何删除spark输出中的compactbuffer

下面是我在spark shell中运行的程序但是当我将输出保存在HDFS中时我得到带有compactbuffer的输出如何删除spark输出中的compactbuffer Program val a sc textFile datag
从apache Spark中的文本文件查找rdd中存储的数据大小

我是 Apache Spark 版本 1 4 1 的新手我编写了一段小代码来读取文本文件并将其数据存储在 Rdd 中有没有一种方法可以获取 rdd 中数据的大小这是我的代码 import org apache spark SparkC
在 Jupyter 笔记本中使用 PySpark 读取 XML

我正在尝试读取 XML 文件 df spark read format com databricks spark xml load path to my xml 并收到以下错误 java lang ClassNotFoundExceptio

随机推荐

将 Chrome 设置为 RSpec/Capybara 的默认浏览器

我在让 Chrome 在 Ubuntu 13 10 64 位上与 RSpec Capybara 配合使用时遇到一些问题默认情况下它启动 Firefox 我们尝试通过多种方式改变这一点包括 http actsasblog ca 2011
曾几何时，> 比 < 更快……等等，什么？

我在读很棒的 OpenGL 教程 https paroj github io gltut Positioning Tut05 20Overlap 20and 20Depth 20Buffering html 这真的很棒相信我我当前的主题
Android 中通过 SIP 进行视频通话

我是 Android 初学者正在开发一个可以使用 SIP 通过 IP 进行视频通话的应用程序我在 Google 和 StackOverflow 上搜索了很多得到的只是我需要一些 Native Library 而我对它没有太多了解我关
如何在 C# 中仅反序列化 XML 文档的一部分

这是我试图解决的问题的一个虚构示例如果我使用 C 工作并且有这样的 XML
.NET：检查 URL 的响应状态代码？

在 NET 中检查 Web 服务器回复 GET 请求的状态代码的最简单方法是什么请注意我不需要响应的正文事实上如果可能的话只应该请求标头然而话虽如此如果请求省略响应正文会显着增加代码的复杂性那么接收正文就可以了另外我对
多核机器上单精度数组与双精度数组的矩阵乘法的性能下降

UPDATE 不幸的是由于我的疏忽我有一个旧版本的 MKL 11 1 与 numpy 链接新版本的 MKL 11 3 1 在 C 中和从 python 调用时提供相同的性能令人困惑的是即使将编译后的共享库与较新的 MKL 显式链接
缩短 Javascript if-else 结构

我的代码是 var level function d if value d gt median stdev return 1 else if value d gt median return 2 else if value d gt med
在 django 中将 2 小时和 1 天添加到时间戳上

我有一个保存游戏数据的模型我如何在开始字段中添加 2 小时和 1 天 class Game models Model starts models DateTimeField auto now add True ends models
如何使用 UICollectionView 复制 iOS Chrome 选项卡效果 [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我正在创建一个应用程序其中视图之一
Scala 中存在“无法解析符号”错误的通用方法

我需要获得一个通用的检查方法可以按如下方式使用 check Int 10 1 5 and check Double 10 0 1 0 5 0 我尝试了这段代码 trait RangeChecker def check T lt AnyVa
如何翻译外部 javascript 文件中的文本？（姜戈）

我有一个 JavaScript 文件它根据用户交互将元素附加到正文现在在我的 index html 模板中我使用翻译后的文本声明全局变量 block main endblock 因此在 Django 翻译索引模板中的文本后我的
#include C/C++ 中的头文件

在阅读了几个有关编译特别是 C 问题的问题并注意到在许多情况下问题是缺少标头 include 后我不禁对自己的无知感到疑惑并问自己现在也问你为什么缺少的标头不会自动检查并添加或请求给程序员例如此类功能可用于 Netbeans
如何将文字放在图像的中间

你好使用 CSS 我试图将一些文本放在图像的中心所以它看起来像这样 div P I This is some text C div 我怎样才能达到这个结果不知道这是否有帮助图像是 32x32 像素 img vertical alig
Doctrine2 中 JOIN ON 和 JOIN WITH 有什么区别？

Doctrine2 中 JOIN ON 和 JOIN WITH 有什么区别我在手册中找不到任何相关信息 ON替换原来的连接条件 WITH为其添加一个条件 Example Album OneToMany gt Track Case One
子图日期时间 X 轴刻度未按预期工作

我正在尝试绘制许多图以下是数据组织方式的示例我的目的是使用谷歌分析数据构建一系列几小时或几天比如一周 7 天或一天 24 小时的子图我的索引是日期时间对象这是当轴正确完成时单个图的外观示例 from datetime impo
了解 Traceview

我想了解跟踪视图是如何工作的我尝试使用traceview 分析一种方法但有一个疑问我已附上 trace 的快照它表示大部分时间由蓝色标记的顶级占用但没有更多信息这个方法何时执行或者执行什么功能谁能向我解释一下为什么它花费这
在scala中调用akka actor的方法

我有一个演员定义如下 class nodeActor ID String extends Actor 其中包含一个方法用于在启动之前设置 actor def addRef actor ActorRef 我这样实例化这个演员 val nod
Junit ant 任务 - 未找到 JUnitTask

我正在尝试从我的 ant build xml 文件运行 Junit 测试我读here http ant apache org manual Tasks junit html您可以使用 junit jar 文件而不是使用位于 ant ho
如何消除 Flutter 中两个容器之间的空间？

我在 Column 小部件内有两个高度 250 的容器这两个容器小部件之间没有任何其他小部件但我仍然可以看到两个容器之间的空间很小这是我的代码 import package flutter material dart void mai
什么是spark.driver.maxResultSize？

The ref http spark apache org docs latest configuration html says 每个分区的所有分区的序列化结果总大小的限制激发行动例如收集应至少为 1M 或 0 无限如果总大小超过

什么是spark.driver.maxResultSize？

什么是spark.driver.maxResultSize？ 的相关文章

随机推荐

热门标签

什么是spark.driver.maxResultSize？的相关文章