YARN 上 Spark 的性能问题

2023-11-21

我们正在尝试在纱线上运行我们的火花集群。我们遇到了一些性能问题，特别是与独立模式相比。

我们有一个由 5 个节点组成的集群，每个节点都有 16GB RAM 和 8 个核心。我们在yarn-site.xml中将最小容器大小配置为3GB，最大容器大小为14GB。当将作业提交到yarn-cluster时，我们提供执行器数量= 10，执行器内存= 14 GB。根据我的理解，我们的工作应该分配4个14GB的容器。但 Spark UI 仅显示 3 个容器，每个容器 7.2GB。

我们无法确保分配给它的集装箱数量和资源。与独立模式相比，这会导致性能下降。

您能否指出如何优化纱线性能？

这是我用于提交作业的命令：

$SPARK_HOME/bin/spark-submit --class "MyApp" --master yarn-cluster --num-executors 10 --executor-memory 14g  target/scala-2.10/my-application_2.10-1.0.jar

经过讨论，我更改了我的yarn-site.xml 文件以及spark-submit 命令。

这是新的yarn-site.xml代码：

<property>
<name>yarn.resourcemanager.hostname</name>
<value>hm41</value>
</property>

<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>14336</value>
</property>

<property>
<name>yarn.scheduler.minimum-allocation-mb</name>
<value>2560</value>
</property>

<property>
<name>yarn.scheduler.maximum-allocation-mb</name>
<value>13312</value>
</property>

Spark 提交的新命令是

$SPARK_HOME/bin/spark-submit --class "MyApp" --master yarn-cluster --num-executors 4 --executor-memory  10g --executor-cores 6   target/scala-2.10/my-application_2.10-1.0.jar

With this I am able to get 6 cores on each machine but the memory usage of each node is still around 5G. I have attached the screen shot of SPARKUI and htop. enter image description here Spark UI Screenshot![][1]

您在 SparkUI 中看到的内存 (7.2GB) 是spark.storage.memoryFraction，默认情况下为 0.6。至于丢失的执行程序，您应该查看 YARN 资源管理器日志。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

hadoopyarn

YARN 上 Spark 的性能问题的相关文章

Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
使用spark phoenix从表中读取rdd分区号为1

当我运行我的火花代码时 val sqlContext spark sqlContext val noact table primaryDataProcessor getTableData sqlContext zookeeper table
如何使用 SparkR 1.6.0 写入 JDBC 源？

使用 SparkR 1 6 0 我可以使用以下代码从 JDBC 源读取数据 jdbc url lt jdbc mysql localhost 3306 dashboard user
Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m
行类型 Spark 数据集的编码器

我想写一个编码器Row https spark apache org docs 2 0 0 api java index html org apache spark sql Row html输入 DataSet 用于我正在执行的地图操作本
Spark 数据帧：根据另一列的值提取一列

我有一个包含带有连接价目表的交易的数据框 paid currency EUR USD GBP 49 5 EUR 99 79 69 客户已支付 49 5 欧元如货币列中所示我现在想将支付的价格与价目表中的价格进行比较因此我需要根据
PySpark 使用统计信息写入 Parquet 二进制列（signed-min-max.enabled）

我找到了这张 apache parquet 票https issues apache org jira browse PARQUET 686 https issues apache org jira browse PARQUET 686被标
使用空/空字段值创建新的数据框

我正在从现有数据帧创建一个新数据帧但需要在这个新 DF 中添加新列下面代码中的 field1 我该怎么做工作示例代码示例将不胜感激 val edwDf omniDataFrame withColumn field1 callUDF v
Spark MLlib - 训练隐式警告

我在使用时不断看到这些警告trainImplicit WARN TaskSetManager Stage 246 contains a task of very large size 208 KB The maximum recommend
Spark 作业托管在 Jboss 上并尝试连接到 master 时，调用 RpcHandler #receive() 获取单向消息时出错

部署在 Jboss 服务器上时我无法连接到 master 上的 Spark 我有一个使用 Java 和 Spark API 设计的应用程序用于将数据加载到 Oracle 数据库我已经在 J boss 上部署了这个应用程序并且在我的本
R和spark：比较不同地理点之间的距离

我正在处理纽约市出租车数据集该数据集的列包括日期时间接送纬度经度下车纬度经度等现在我想对纬度经度进行反向地理编码以找到行政区社区我有两个数据框 1 第一个数据框包含我想要用最近的纽约社区名称进行分类的所有点 2 第二个数据
如何抑制 EMR 上运行的 Spark-sql 的 INFO 消息？

我正在 EMR 上运行 Spark 如中所述在 Amazon Elastic MapReduce 上运行 Spark 和 Spark SQL https aws amazon com articles 4926593393724923 本教
检查 pyspark df 列的值是否存在于其他 pyspark df 列中

我有 2 个 pyspark 数据帧我想检查一列的值是否存在于另一个数据帧的列中我只看到了如何过滤存在的值的解决方案像这样 https stackoverflow com questions 41775281 filtering a
Spark：连接两个相同分区的数据帧时防止洗牌/交换

我有两个数据框df1 and df2我想在一个名为的高基数字段上多次加入这些表visitor id 我只想执行一次初始洗牌并让所有连接发生而无需在 Spark 执行器之间洗牌交换数据为此我创建了另一个名为visitor parti
Scala Spark：将数据框中的双列转换为日期时间列

我正在尝试编写代码来将日期时间列 date 和 last updated date 转换为 mm dd yyyy 格式以进行显示它们实际上是 unix 时间转换为双精度数我该怎么做呢 import org joda time impor
如何区分spark中的操作是转换还是动作？

最近在学习spark 对transformation和action操作很困惑我阅读了spark文档和一些关于spark的书籍我知道action会导致spark作业在集群中执行而transformation则不会但是spark的api
仅使用 Spark ML Pipelines 进行转换

我正在开发一个项目其中可配置的管道和 Spark DataFrame 更改的沿袭跟踪都是必不可少的该管道的端点通常只是修改后的 DataFrame 将其视为 ETL 任务对我来说最有意义的是利用现有的 Spark ML Pipelin
SQL 类似于 PySpark 数据帧的 NOT IN 子句

例如在 SQL 中我们可以这样做select from table where col1 not in A B 我想知道是否有一个与此等效的 PySpark 我能够找到isin类似于 SQL 的函数IN条款但没有任何内容NOT IN
Spark错误：无效的日志目录/app/spark/spark-1.6.1-bin-hadoop2.6/work/app-20161018015113-0000/3/

我的 Spark 应用程序因上述错误而失败实际上我的 Spark 程序正在将日志写入该目录 stderr 和 stdout 都被写入所有工作人员我的程序以前运行良好但昨天我将 fodler 更改为指向 SPARK WORKER DIR

随机推荐

仅将 dropShadow 添加到网格窗格 JavaFx 2.2 的边框

只想将阴影添加到网格窗格的边框而不是内部子元素 here is the image of screen showing the effect 使用 StackPane 并将 GridPane 放入其中使用 CSS 设置 StackPane
动态改变colors.xml的值来改变android应用程序的外观和感觉

问题我正在尝试动态更改 Android 应用程序的外观和感觉例如应用程序启动并从服务器获取一组值这些值是通常位于colors xml 中的元素我正在寻找的是一种动态更改colors xml 中的元素并使用从服务器接收到的这些新值进
如何使用 Delphi 中的当前区域设置格式化整数

var i integer i 1234567 鉴于上述情况我希望字符串 1 234 567 作为输出假设英国区域设置 IntToStr 只是给我 1234567 我确信有一个单行线可以解决这个问题但我找不到它尝试格式化功能 Lab
如何保留嵌入小部件的样式？

如何制作外部PHPwidget页面有自己的CSS 问题是当外部页面是included 它受到样式表的影响host page 包含的页面实际上是一个注释小部件带有自己的 css 文件大约 30 行不多并且高度和宽度的灵活性是必须具
如何将Jupyter笔记本上的环境切换为新笔记本？

我有一个具有各种环境的实例有些笔记本与不同的环境兼容例如notebook1 用于 MXNet notebook2 用于 Tensorflow 从notebook1移动到notebook2时如何跳转到新环境我尝试这样做但这不适用于 J
是否可以使用与 std::set 中包含的类型不同的元素来执行搜索和删除？

假设我有以下内容 struct MetadataThingy void actual thingy int some metadata int more metadata bool operator lt MetadataThingy co
@media print 的 CSS 第 x 页（共 y 页）

我将在这个问题的前言中说我知道这个问题之前已经被问过但我能找到的所有答案似乎都引用了一个不再有效的过时的解决方案至少在 Firefox 56 64 位中过时的方法是曾经有一个自动实例化的 CSS 计数器名为pages 因此从该
向每个团队成员发送成功自动化构建的通知

我们只是将 Visual Studio Team Services 集成为我们的新工作流程并在提交到 master 的基础上设置自动构建目前承诺掌握并发起新构建的个人将在构建失败或成功时收到通知电子邮件我们以为我们都会收到通知但事
MVVM WPF ComboBox SelectedItem 绑定未在数据网格内激活

在数据网格内操作时我一直在努力保存组合框选定的值当我制作没有数据网格的测试解决方案时一切正常上下文是与相关国家的人名国家地区存储在 xml 文件中这是初始视图的快照您可以在此处看到PersonList xaml 的重要部分
Java 包与 C++ 库

In Java 有一种叫做package Does library in C 代表相同的含义特别是在包含相关子句和使用受保护成员等术语中 Thanks 一个事物有不同的维度packageJava 中的意思作为一个区分内部类名称与其他包中
设计模式名称：从类级别获取类

特别是在单元测试中我们使用这种设计模式我称之为从类级别获取类框架测试 py class FrameWorkHttpClient object class FrameWorkTestCase unittest TestCase Su
“长度不能小于零。”在空白行上

即使我注释掉发生错误的行我仍然收到上述错误消息知道是什么原因造成的吗我尝试用测试值重写这些行但仍然遇到相同的错误这在调试模式下工作得很好只有在部署中才会出现原始代码 Line 21 string domain username
html5 画布中的运动 jpeg

我正在尝试将运动 jpeg mjpeg 流来自网络摄像头包装到 html5 画布中我知道 Safari 和 Chrome 对 mjpeg 具有本机支持因此我可以将其放入img使其发挥作用我想将它包裹在画布中的原因是我想对其进行一些
设置对话框进度

我有一个异步任务在执行任务时不会添加百分比它始终保持在 0 0 100 这是我的代码 private class getAppInfo extends AsyncTask
Django-filter 按相关字段过滤

我有两张桌子 class Writer models Model name model CharField class Article models Model name model CharField writer model Forei
如何在 AngularJS 页面中接收 POST 请求？

我们制作了一个 AngularJS 应用程序用户打开一个 URL xyz com booking 填写表格然后选择一些要购买的商品之后用户单击购买按钮并离开该站点前往支付网关站点付款成功后支付网关通过在回调 URL xyz
如何在Python中生成具有重复数字的随机列表

所以几天前我才开始用Python编程现在我正在尝试制作一个生成随机列表的程序然后选择重复元素问题是我的列表中没有重复的数字这是我的代码 import random def generar listas numeros rango
修改传递给脚本的参数 (Bash)

我已经在谷歌上寻找了很长一段时间但找不到任何符合我需要想要做的事情我的目标是编写一个带有两个参数的脚本它将搜索第一个参数这是一个列表并检测第二个参数是否已在其中例如列表 bin foo bin random 随机添加到列表
无法理解带有两个变量的for循环[重复]

这个问题在这里已经有答案了当我在具有不同条件的 for 循环中使用两个变量时我在下面使用了两个条件i lt 3 j lt 2for 循环始终执行直到第二个条件失败 include
YARN 上 Spark 的性能问题

我们正在尝试在纱线上运行我们的火花集群我们遇到了一些性能问题特别是与独立模式相比我们有一个由 5 个节点组成的集群每个节点都有 16GB RAM 和 8 个核心我们在yarn site xml中将最小容器大小配置为3GB 最大容器

YARN 上 Spark 的性能问题

YARN 上 Spark 的性能问题 的相关文章

随机推荐

热门标签

YARN 上 Spark 的性能问题的相关文章