如何解决 Spark 上的纱线容器尺寸问题？

2024-01-09

我想启动一些 pyspark 作业YARN。我有 2 个节点，每个节点 10 GB。我可以像这样打开 pyspark shell：pyspark

现在，当我有一个非常简单的示例时，我尝试启动：

import random
NUM_SAMPLES=1000
def inside(p):
    x, y = random.random(), random.random()
    return x*x + y*y < 1

count = sc.parallelize(xrange(0, NUM_SAMPLES)) \
             .filter(inside).count()
print "Pi is roughly %f" % (4.0 * count / NUM_SAMPLES)

结果我得到了一个很长的带有错误输出的火花日志。最重要的信息是：

ERROR cluster.YarnScheduler: Lost executor 1 on (ip>: Container marked as failed: <containerID> on host: <ip>. Exit status 1.  Diagnostics: Exception from container-launch.  ......

后来在日志中我看到......

ERROR scheduler.TaskSetManager: Task 0 in stage 0.0 failed 1 times: aborting job
INFO cluster.YarnClientSchedulerBackend: Asked to remove non-existent executor 1
INFO spark.ExecutorAllocationManager: Existing executor 1 has been removed (new total is 0)

从我从上面的日志中收集到的信息来看，这似乎是纱线中的容器尺寸问题。

My yarn-site.xml文件具有以下设置：

yarn.scheduler.maximum-allocation-mb = 10240
yarn.nodemanager.resource.memory-mb = 10240

and in spark-defaults.conf包含：

spark.yarn.executor.memoryOverhead=2048
spark.driver.memory=3g

如果您想了解任何其他设置，请告诉我。

如何正确设置纱线容器尺寸？
（对于可以帮助我的人的赏金正在路上）

首先让我解释一下在 YARN 集群上调整 Spark 应用程序所需的一组基本属性。

Note:YARN中的Container相当于Spark中的Executor。为了便于理解，您可以认为两者是相同的。

在纱线站点.xml 上：

yarn.nodemanager.resource.memory-mb是给定节点上集群可用的总内存。

yarn.nodemanager.resource.cpu-vcores是给定节点中集群可用的 CPU vcore 总数。

yarn.scheduler.maximum-allocation-mb是每个纱线容器可以分配的最大内存（以 mb 为单位）。

yarn.scheduler.maximum-allocation-vcores是每个纱线容器可以分配的最大 vcore 数量。

Example:如果节点有 16GB 和 8vcore，并且您想向集群贡献 14GB 和 6vcore（对于容器），则设置属性如下所示：

纱线.nodemanager.resource.内存-mb：14336（14GB）

纱线.nodemanager.resource.cpu-vcores：6

并且，要创建每个具有 2GB 和 1vcore 的容器，请设置以下属性：

纱线.scheduler.最大分配-mb：2049

纱线.scheduler.最大分配-vcores : 1

Note:即使有足够的内存（14GB）来创建 7 个 2GB 的容器，上述配置也只会创建 6 个 2GB 的容器，并且 14GB 中只有 12GB 将用于集群。这是因为集群只有 6 个可用的 vcore。

现在在 Spark 方面，

以下属性指定每个执行程序/容器请求的内存

spark.driver.memory

spark.executor.memory

以下属性指定每个执行程序/容器请求的 vcore

spark.driver.cores

spark.executor.cores

IMP: 所有 Spark 的内存和 vcore 属性都应小于或等于 YARN 的配置

以下属性指定 YARN 集群中可用于 Spark 应用程序的执行器/容器的总数。

spark.executor.instances

此属性应小于 YARN 集群中可用容器的总数。

一旦纱线配置完成，火花应该请求容器可以根据YARN配置进行分配。这意味着，如果 YARN 配置为每个容器最多分配 2GB 并且 Spark 请求具有 3GB 内存的容器，则作业将暂停或停止，因为 YARN 无法满足 Spark 的请求。

现在为您的用例：通常，集群调整是基于工作负载的。但下面的配置应该更合适。

可用内存：10GB*2节点可用 Vcore：5 * 2 vcores [假设]

在yarn-site.xml上[在两个节点中]

yarn.nodemanager.resource.memory-mb : 10240

yarn.nodemanager.resource.cpu-vcores : 5

yarn.scheduler.maximum-allocation-mb : 2049

yarn.scheduler.maximum-allocation-vcores : 1

使用上述配置，您可以在每个节点上最多创建 10 个容器，每个容器具有 2GB，1vcore。

火花配置

spark.driver.memory 1536mb

spark.yarn.executor.memoryOverhead 512mb

spark.executor.memory 1536mb

spark.yarn.executor.memoryOverhead 512mb

spark.driver.cores 1

spark.executor.cores 1

spark.executor.instances 19

请随意尝试这些配置以满足您的需求。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

hadoopyarn

如何解决 Spark 上的纱线容器尺寸问题？的相关文章

Spark scala 模拟 Spark.implicits 用于单元测试

当尝试使用 Spark 和 Scala 简化单元测试时我使用 scala test 和mockito scala 以及mockito Sugar 这只是让你做这样的事情 val sparkSessionMock mock SparkSes
火花内存不足

我有一个文件夹里面有 150 G 的 txt 文件大约 700 个文件平均每个 200 MB 我使用 scala 来处理文件并最终计算一些汇总统计数据我认为有两种可能的方法可以做到这一点手动循环所有文件对每个文件进行计算并最终合
了解 Spark 中的 DAG

问题是我有以下 DAG 我认为当需要洗牌时火花将工作划分为不同的阶段考虑阶段 0 和阶段 1 有些操作不需要洗牌那么为什么 Spark 将它们分成不同的阶段呢我认为跨分区的实际数据移动应该发生在第 2 阶段因为这里我们需要cogr
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
如果两个阶段使用相同的 DataFrame，spark 是否会读取同一文件两次？

以下代码读取相同的 csv 两次即使只调用一个操作端到端可运行示例 import pandas as pd import numpy as np df1 pd DataFrame np arange 1 000 reshape 1 1
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出
如何将 UDF 中的结构或类数组返回到数据帧列值中？

d ID 1 pID 1000 startTime 2018 07 02T03 34 20 endTime 2018 07 03T02 40 20 ID 1 pID 1000 startTime 2018 07 02T03 45 20 en
pyspark通过特定键加入rdd

我有两个 rdd 需要将它们连接在一起它们看起来像下面这样 RDD1 u 2 u 100 2 u 1 u 300 1 u 1 u 200 1 RDD2 u 1 u 2 u 1 u 3 我想要的输出是 u 1 u 2 u 100 2 所以我
使用已知模式保存空 DataFrame (Spark 2.2.1)

是否可以使用已知模式保存一个空的 DataFrame 以便将该模式写入文件即使它有 0 条记录 def example spark SparkSession path String schema StructType val datafr
缩放数据框的每一列

我正在尝试缩放数据框的每一列首先我将每一列转换为向量然后使用 ml MinMax Scaler 除了简单地重复它之外是否有更好更优雅的方法将相同的函数应用于每一列 import org apache spark ml linalg
使用 mapWithState Spark Streaming 过滤部分重复项

我们有一个DStream 比如 val ssc new StreamingContext sc Seconds 1 val kS KafkaUtils createDirectStream String TMapRecord ssc Pre
从apache Spark中的文本文件查找rdd中存储的数据大小

我是 Apache Spark 版本 1 4 1 的新手我编写了一段小代码来读取文本文件并将其数据存储在 Rdd 中有没有一种方法可以获取 rdd 中数据的大小这是我的代码 import org apache spark SparkC
运行pyspark时没有这样的文件或目录错误

我安装了 Spark 但是当我运行时pyspark在终端上我得到 usr local Cellar apache spark 2 4 5 1 libexec bin pyspark line 24 Users miguel spark 2
如何获取使用 concat_ws 生成的结果的大小？

我正在表演groupBy在 COL1 上并使用 COL2 的串联列表concat ws 我怎样才能获得该列表中的值的计数这是我的代码 Dataset
Spark 写入 hdfs 无法使用 saveAsNewAPIHadoopFile 方法

我在 CDH 5 2 0 上使用 Spark 1 1 0 并试图确保我可以读取和写入 hdfs 我很快意识到 textFile 和 saveAsTextFile 调用旧的 api 并且似乎与我们的 hdfs 版本不兼容 def testHD
由于 UTFDataFormatException 导致 Spark 中的任务无法序列化：编码字符串太长

我在 Yarn 上运行 Spark 应用程序时遇到一些问题我有非常广泛的集成测试运行时没有任何问题但是当我在 YARN 上运行应用程序时它将抛出以下错误 17 01 06 11 22 23 ERROR yarn Applicatio
Spark Shuffle 写入超慢

为什么对于 1 6MB shuffle 写入和 2 4MB 输入 spark shuffle 阶段如此缓慢为什么 shuffle 写入仅发生在一个执行器上我正在运行一个 3 节点集群每个集群有 8 个核心火花用户界面 Code Ja
四舍五入数据框中的所有列 - 两位小数 pyspark

我使用此命令将数据框中的所有列四舍五入到小数点后两位 data data withColumn columnName1 func round data columnName1 2 我不知道如何通过一个命令对所有数据框进行四舍五入不是每一列
Spark SQL中如何按列降序排序？

I tried df orderBy col1 show 10 但它是按升序排列的 df sort col1 show 10 也按升序排序我查看了 stackoverflow 发现的答案都已过时或称为 RDD https stackove

随机推荐

从字符串中删除所有非 utf-8 符号

我有大量的文件和解析器我要做的就是去掉所有非 utf 8 符号并将数据放入 mongodb 中目前我有这样的代码 with open fname r as fp for line in fp line line strip line l
Typeorm子查询添加选择

我是新使用的typeorm这是我第二次感到困惑typeorm 我有以下查询 SELECT t1 a t1 b t2 a SELECT TOP 1 t1 a FROM table1 t1 WHERE t1 b t2 a ORDER BY t1
将 pandas 中的时间序列重新采样为每周间隔

如何将 pandas 中的时间序列重新采样为每周频率其中每周从任意一天开始我看到有一个可选的关键字库但它只适用于短于一天的时间间隔你可以通过锚定偏移量 http pandas pydata org pandas docs stabl
C++ boost 库 - 写入 ini 文件而不覆盖？

我正在尝试使用 boost 库的 ini 解析器和属性树编写 ini 文件该文件是分阶段写入的我的意思是每个函数都会写入其中的一部分最后我只留下最后的输出而不是写下所有内容我在编写时使用的示例代码 property tree p
selenium.open() 在迭代测试中变得无响应

我有一组必须使用不同参数执行的测试步骤我已在 Eclipse TestNG 中编写了此脚本由 Excel 工作表提供的参数驱动现在测试步骤包括设置页面的属性然后打开另一个页面以确认该属性已设置所以实际上我使用了一个简单的se
Spark，如何打印查询？

我正在使用 pyspark df self sqlContext read option es resource indexes format org elasticsearch spark sql load df df filter df
如何用Java管理Linux文件权限？

是否有任何机制来获取和设置文件目录权限比如我想以shell的方式显示一个文件的权限 rwxr xr 使用 Java 可以做到这一点吗我知道里面有一些方法File类来知道文件是否canExecute canRead and canWri
Apple-app-site-association 文件无法下载

我已将我的 apple app site association 文件上传到我的 HTTPS Web 服务器的根目录之后我已在 xcode 中添加了我的关联域我已遵循 Apple 通用链接教程 SWC 拒绝重定向到 https exam
为什么网格模板区域中缺少的网格区域名称会创建额外的轨道？

我创建了一个简单的 CSS 网格我决定不指定grid template grid template columns grid template rows特性相反我开始于grid template areas 并分配地区名称 to th
推特引导程序中缩小尺寸？

当在我的浏览器中我缩小两次 ctrl ctrl 而不是默认的使用 ctrl 0 查看时我喜欢使用 twitter bootstrap 的所有项目的大小缩放会影响字体大小响应式设计以及我想使用 bootstrap 的其他十几个重要
如何允许 UWP ListView 滚动到最后一项？

我有一个 ListView 其中包含一堆大小不规则的项目当您滚动 ListView 时最后一项的底部将最终位于控件的底部您无法继续滚动如果最后一项小于控件我想要top最后一个项目能够滚动到控件的顶部如果该项目比控件大我对默认行
Rails 3.2.6 和通过迁移创建数据库视图

我使用的是 Rails 3 2 6 我需要创建一个数据库 VIEW 像往常一样我创建了一个迁移并尝试使用执行方法来实现目标不幸的是迁移生成的是表而不是视图为什么提前谢谢了毛罗 UPDATE 我想要如下的东西 class Cr
C# 中 Delphi“shl”的等价物是什么？

我正在基于 Delphi 转换代码用 C 制作一个应用程序但我发现了一个我不认识的命令 shl 我想知道是否有与 C 等效的命令提前致谢 Shl is 左移 http www delphibasics co uk RTL asp Na
如何静态检测缺失的 @Override 注释？

在 Java 5 和 Java 6 之间有关的规则 Override源自接口而不是超类的方法的注释已更改在不允许之前但在允许之后然而他们并不是required通过javac 某些 IDE 例如 eclipse 可能会针对此类缺
为什么 constexpr 不是所有函数的默认值？ [复制]

这个问题在这里已经有答案了在放宽 constexpr 的规则后这些函数似乎可以在任何地方使用它们也可以在常量 constexpr 和局部可变变量上调用所以对我来说这似乎只是编译器的提示如内联我只是继续在各处编写它如果编译
ASP.NET Core 应用程序的解决方案资源管理器中的文件嵌套

当我创建 ASP NET Core 2 0 Razor Page 模板项目时每个 cshtml 及其 cs 文件都被拆分我不知道为什么几分钟前它工作正常但我不记得我做了什么也许是 SDK 或 Visual Studio 的设置我
语法：自上而下和自下而上的区别？

自上而下和自下而上语法有什么区别举个例子就太好了首先语法本身不是自上而下或自下而上的 parser是尽管有些语法可以被一种语法解析但不能被另一种语法解析从实践的角度来看主要区别在于大多数手写解析器是自上而下的而更大比例的机器
查找资源字典时出现设计时错误 - 项目之间不一致

TLDR 新引用外部的屏幕ResourceDictionary在运行时可以正确地以 VS2015 样式编写文件但在设计时则不然是什么赋予了在工作中我们有一个 WinForms 产品其中包含manyWinForms 屏幕上有一位开发
std::shared_ptr 向上转换为基类 - 最好的方法？

哪种转换更好有什么区别 class Base class Derived public Base public std enable shared from this
如何解决 Spark 上的纱线容器尺寸问题？

我想启动一些 pyspark 作业YARN 我有 2 个节点每个节点 10 GB 我可以像这样打开 pyspark shell pyspark 现在当我有一个非常简单的示例时我尝试启动 import random NUM SAMPLE

如何解决 Spark 上的纱线容器尺寸问题？

如何解决 Spark 上的纱线容器尺寸问题？ 的相关文章

随机推荐

热门标签

如何解决 Spark 上的纱线容器尺寸问题？的相关文章