什么是spark.driver.maxResultSize?

2023-12-28

The ref http://spark.apache.org/docs/latest/configuration.html says:

每个分区的所有分区的序列化结果总大小的限制 激发行动(例如收集)。应至少为 1M,或 0 无限。如果总大小超过此限制,作业将被中止。 具有较高的限制可能会导致驱动程序内存不足错误(取决于 关于spark.driver.memory和JVM中对象的内存开销)。环境 适当的限制可以保护驱动程序免受内存不足错误的影响。

这个属性具体有什么作用呢?我的意思是,一开始(因为我没有与因内存不足错误而失败的工作作斗争)我认为我应该增加它。

再想一想,这个属性似乎定义了工作人员可以发送给驱动程序的结果的最大大小,因此将其保留为默认值(1G)将是保护驱动程序的最佳方法。

但在这种情况下,工作人员将不得不发送更多消息,因此开销只是工作会变慢?


如果我理解正确的话,假设一个worker想要发送4G的数据给driver,那么有spark.driver.maxResultSize=1G,将导致工作人员发送 4 条消息(而不是无限发送 1 条消息)spark.driver.maxResultSize)。如果是这样,那么增加该属性来保护我的驱动程序不被 Yarn 暗杀应该是错误的。

但上面的问题仍然存在..我的意思是,如果我将其设置为 1M(最小值),这会是最具保护性的方法吗?


假设工作人员想要向驱动程序发送 4G 的数据,那么 Spark.driver.maxResultSize=1G 将导致工作人员发送 4 条消息(而不是发送 1 条无限制的 Spark.driver.maxResultSize)。

否。如果数据的估计大小大于maxResultSize给定的作业将被中止。这里的目标是保护您的应用程序免受驱动程序丢失的影响,仅此而已。

如果我将其设置为 1M(最小值),这是否是最具保护性的方法?

从某种意义上来说是的,但显然在实践中没有什么用处。良好的价值应该允许应用程序正常进行,但可以保护应用程序免受意外情况的影响。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

什么是spark.driver.maxResultSize? 的相关文章

  • 如何在supervisord中设置组?

    因此 我正在设置 Supervisord 并尝试控制多个进程 并且一切正常 现在我想设置一个组 以便我可以启动 停止不同的进程集 而不是全部或全无 这是我的配置文件的片段 group tapjoy programs tapjoy game1
  • IntelliJ:线程“主”java.lang.NoClassDefFoundError中的异常:org/apache/spark/sql/types/DataType

    附言 有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
  • Akka :: 调度程序 [%name%] 未配置,使用默认调度程序

    我创建了以下 application conf akka actor prio dispatcher type Dispatcher mailbox type my package PrioritizedMailbox 当转储配置时 act
  • YARN UNHEALTHY 节点

    在我们的 YARN 集群已满 80 的情况下 我们看到一些纱线节点管理器被标记为不健康 在深入研究日志后 我发现这是因为数据目录的磁盘空间已满 90 出现以下错误 2015 02 21 08 33 51 590 INFO org apach
  • 根据 pyspark 中的条件从数据框中删除行

    我有一个包含两列的数据框 col1 col2 22 12 2 1 2 1 5 52 1 2 62 9 77 33 3 我想创建一个新的数据框 它只需要行 col1 的值 gt col2 的值 就像注释一样col1 很长类型和col2 有双
  • 纱线上的火花,连接到资源管理器 /0.0.0.0:8032

    我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点 当然都在linux机器上 我在idea IDE中以spark独立模式运行spark程序 它运行成功
  • 如何根据条件添加新列(而不面临 JaninoRuntimeException 或 OutOfMemoryError)?

    尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo
  • 在 Laravel 中动态设置数据库连接和语言

    我有 3 个域指向同一个Laravel应用 我想要的是每个人都连接到自己的数据库并根据 TLD 加载自己的语言文件 我可以在哪个文件中设置这些设置 我可以直接在配置文件中执行此操作 或者可以在加载配置之前执行某些事件 我拥有的是一个简短的函
  • 火花内存不足

    我有一个文件夹 里面有 150 G 的 txt 文件 大约 700 个文件 平均每个 200 MB 我使用 scala 来处理文件并最终计算一些汇总统计数据 我认为有两种可能的方法可以做到这一点 手动循环所有文件 对每个文件进行计算并最终合
  • pyspark 将 twitter json 流式传输到 DF

    我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理 但根据我的用例 我需要所有字段twitter J
  • Spark:查找前 n 个值的高性能方法

    我有一个很大的数据集 我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
  • 如何强制 MSBuild 清理或重建?

    我正在使用脚本中的 MSBuild 来编译我的项目 我注意到它只是进行构建而不是清理 重建 我有以下内容
  • 我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗?

    我对大数据和相关领域的概念非常陌生 如果我犯了一些错误或拼写错误 我很抱歉 我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中 在开发 测试环境中 由于Hadoop包含HDFS Hadoop分布式文件系统
  • 如何根据“配置管理器”创建自己定义的常量?

    当我选择 调试 配置时 DEBUG常数处于活动状态 当我选择 释放 配置时 DEBUG常量处于非活动状态 我如何创建自己的配置 以便它们包含我自己定义的常量 基本上 我想要这样 如果我选择配置 FOOBAR 就会有一个常量FOO and B
  • Windows 等效的系统配置目录

    我正在 Ruby 中开发一个 CLI 应用程序 我希望允许通过标准配置文件级联在 Unix 中进行配置 etc appnamerc appnamerc 然而 该应用程序也应该在 Windows 环境中运行 我不确定将像这样的文件放在哪里 e
  • 缩放数据框的每一列

    我正在尝试缩放数据框的每一列 首先 我将每一列转换为向量 然后使用 ml MinMax Scaler 除了简单地重复它之外 是否有更好 更优雅的方法将相同的函数应用于每一列 import org apache spark ml linalg
  • DataFrame 分区到单个 Parquet 文件(每个分区)

    我想重新分区 合并我的数据 以便将其保存到每个分区的一个 Parquet 文件中 我还想使用 Spark SQL partitionBy API 所以我可以这样做 df coalesce 1 write partitionBy entity
  • 如何删除spark输出中的compactbuffer

    下面是我在spark shell中运行的程序 但是当我将输出保存在HDFS中时 我得到带有compactbuffer的输出 如何删除spark输出中的compactbuffer Program val a sc textFile datag
  • 从apache Spark中的文本文件查找rdd中存储的数据大小

    我是 Apache Spark 版本 1 4 1 的新手 我编写了一段小代码来读取文本文件并将其数据存储在 Rdd 中 有没有一种方法可以获取 rdd 中数据的大小 这是我的代码 import org apache spark SparkC
  • 在 Jupyter 笔记本中使用 PySpark 读取 XML

    我正在尝试读取 XML 文件 df spark read format com databricks spark xml load path to my xml 并收到以下错误 java lang ClassNotFoundExceptio

随机推荐

  • 将 Chrome 设置为 RSpec/Capybara 的默认浏览器

    我在让 Chrome 在 Ubuntu 13 10 64 位上与 RSpec Capybara 配合使用时遇到一些问题 默认情况下它启动 Firefox 我们尝试通过多种方式改变这一点 包括 http actsasblog ca 2011
  • 曾几何时,> 比 < 更快……等等,什么?

    我在读很棒的 OpenGL 教程 https paroj github io gltut Positioning Tut05 20Overlap 20and 20Depth 20Buffering html 这真的很棒 相信我 我当前的主题
  • Android 中通过 SIP 进行视频通话

    我是 Android 初学者 正在开发一个可以使用 SIP 通过 IP 进行视频通话的应用程序 我在 Google 和 StackOverflow 上搜索了很多 得到的只是我需要一些 Native Library 而我对它没有太多了解 我关
  • 如何在 C# 中仅反序列化 XML 文档的一部分

    这是我试图解决的问题的一个虚构示例 如果我使用 C 工作 并且有这样的 XML
  • .NET:检查 URL 的响应状态代码?

    在 NET 中检查 Web 服务器回复 GET 请求的状态代码的最简单方法是什么 请注意 我不需要响应的正文 事实上 如果可能的话 只应该请求标头 然而 话虽如此 如果请求省略响应正文会显着增加代码的复杂性 那么接收正文就可以了 另外 我对
  • 多核机器上单精度数组与双精度数组的矩阵乘法的性能下降

    UPDATE 不幸的是 由于我的疏忽 我有一个旧版本的 MKL 11 1 与 numpy 链接 新版本的 MKL 11 3 1 在 C 中和从 python 调用时提供相同的性能 令人困惑的是 即使将编译后的共享库与较新的 MKL 显式链接
  • 缩短 Javascript if-else 结构

    我的代码是 var level function d if value d gt median stdev return 1 else if value d gt median return 2 else if value d gt med
  • 在 django 中将 2 小时和 1 天添加到时间戳上

    我有一个保存游戏数据的模型 我如何在 开始 字段中添加 2 小时和 1 天 class Game models Model starts models DateTimeField auto now add True ends models
  • 如何使用 UICollectionView 复制 iOS Chrome 选项卡效果 [关闭]

    很难说出这里问的是什么 这个问题是含糊的 模糊的 不完整的 过于宽泛的或修辞性的 无法以目前的形式得到合理的回答 如需帮助澄清此问题以便重新打开 访问帮助中心 help reopen questions 我正在创建一个应用程序 其中视图之一
  • Scala 中存在“无法解析符号”错误的通用方法

    我需要获得一个通用的检查方法 可以按如下方式使用 check Int 10 1 5 and check Double 10 0 1 0 5 0 我尝试了这段代码 trait RangeChecker def check T lt AnyVa
  • 如何翻译外部 javascript 文件中的文本? (姜戈)

    我有一个 JavaScript 文件 它根据用户交互将元素附加到正文 现在 在我的 index html 模板中 我使用翻译后的文本声明全局变量 block main endblock 因此 在 Django 翻译索引模板中的文本后 我的
  • #include C/C++ 中的头文件

    在阅读了几个有关编译 特别是 C 问题的问题并注意到在许多情况下问题是缺少标头 include 后 我不禁对自己的无知感到疑惑 并问自己 现在也问你 为什么缺少的标头不会自动检查并添加或请求给程序员 例如 此类功能可用于 Netbeans
  • 如何将文字放在图像的中间

    你好 使用 CSS 我试图将一些文本放在图像的中心 所以它看起来像这样 div P I This is some text C div 我怎样才能达到这个结果 不知道这是否有帮助 图像是 32x32 像素 img vertical alig
  • Doctrine2 中 JOIN ON 和 JOIN WITH 有什么区别?

    Doctrine2 中 JOIN ON 和 JOIN WITH 有什么区别 我在手册中找不到任何相关信息 ON替换原来的连接条件 WITH为其添加一个条件 Example Album OneToMany gt Track Case One
  • 子图日期时间 X 轴刻度未按预期工作

    我正在尝试绘制许多图 以下是数据组织方式的示例 我的目的是使用谷歌分析数据构建一系列几小时或几天 比如一周 7 天 或一天 24 小时 的子图 我的索引是日期时间对象 这是当轴正确完成时单个图的外观示例 from datetime impo
  • 了解 Traceview

    我想了解跟踪视图是如何工作的 我尝试使用traceview 分析一种方法 但有一个疑问 我已附上 trace 的快照 它表示大部分时间由蓝色标记的 顶级 占用 但没有更多信息 这个方法何时执行或者执行什么功能 谁能向我解释一下为什么它花费这
  • 在scala中调用akka actor的方法

    我有一个演员定义如下 class nodeActor ID String extends Actor 其中包含一个方法 用于在启动之前设置 actor def addRef actor ActorRef 我这样实例化这个演员 val nod
  • Junit ant 任务 - 未找到 JUnitTask

    我正在尝试从我的 ant build xml 文件运行 Junit 测试 我读here http ant apache org manual Tasks junit html您可以使用 junit jar 文件 而不是使用位于 ant ho
  • 如何消除 Flutter 中两个容器之间的空间?

    我在 Column 小部件内有两个高度 250 的容器 这两个容器小部件之间没有任何其他小部件 但我仍然可以看到两个容器之间的空间很小 这是我的代码 import package flutter material dart void mai
  • 什么是spark.driver.maxResultSize?

    The ref http spark apache org docs latest configuration html says 每个分区的所有分区的序列化结果总大小的限制 激发行动 例如收集 应至少为 1M 或 0 无限 如果总大小超过