配置Spark on YARN集群内存

2023-11-06

在这里插入代码片

运行文件有几个G大，默认的spark的内存设置就不行了，需要重新设置。还没有看Spark源码，只能先搜搜相关的博客解决问题。

按照Spark应用程序中的driver分布方式不同，Spark on YARN有两种模式： yarn-client 模式、 yarn-cluster模式。当在YARN上运行Spark作业，每个Spark executor作为一个YARN容器运行。Spark可以使得多个Tasks在同一个容器里面运行。

配置Spark内存的文件是Spark设置里的spark-env.sh文件，里面详细分类单机下，yarn-client模式下以及yarn-cluster模式下的内存设置项。

配置YARN内存的文件是Hadoop设置里的yarn-site.xml文件，几个比较常用的参数如下：

yarn.app.mapreduce.am.resource.mb ：AM能够申请的最大内存，默认值为1536MB
yarn.nodemanager.resource.memory-mb ：nodemanager能够申请的最大内存，默认值为8192MB
yarn.scheduler.minimum-allocation-mb ：调度时一个container能够申请的最小资源，默认值为1024MB
yarn.scheduler.maximum-allocation-mb ：调度时一个container能够申请的最大资源，默认值为8192MB

需要注意的是，主节点和各个从节点需要分别配置内存，可以根据机器的情况动态配置。我在主节点的配置为：

    <property>
            <name>yarn.resourcemanager.hostname</name>
            <value>master</value>
    </property>
    <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
    </property>
    <property>
            <name>yarn.app.mapreduce.am.resource.mb</name>
            <value>2048</value>
    </property>
    <property>
            <name>yarn.nodemanager.resource.memory-mb</name>
            <value>81920</value>
    </property>
    <property>
            <name>yarn.scheduler.minimum-allocation-mb</name>
            <value>2048</value>
    </property>
    <property>
            <name>yarn.scheduler.maximum-allocation-mb</name>
            <value>81920</value>
    </property>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

配置Spark on YARN集群内存的相关文章

使用字符串数组在 Hive 表上加载 CSV 文件

我正在尝试将 CSV 文件插入 Hive 其中一个字段是 string 数组这是 CSV 文件 48 Snacks that Power Up Weight Loss Aidan B Prince Health Fitness Trave
如何按行扩展数组值！！使用 Hive SQL

我有一个有 4 列的表其中一列项目类型是 ARRAY 其他是字符串 ID items name loc id1 item1 item2 item3 item4 item5 Mike CT id2 item3 item7 item4 i
如何直接将一个mapper-reducer的输出发送到另一个mapper-reducer而不将输出保存到hdfs中

问题最终解决检查底部的我的解决方案最近我尝试运行 Mahout in Action 的第 6 章列表 6 1 6 4 中的推荐示例但我遇到了一个问题我用谷歌搜索但找不到解决方案问题是我有一对映射器减速器 public fina
HBase、Hadoop：如何估计 HBase 表或 Hadoop 文件系统路径的大小？

我有多个 HBase 表如何估计在 java 中使用的表的大致大小一种方法是你必须使用java客户端访问hdfs 通常在 hbase文件夹所有表格信息将在场 Hadoop 外壳你可以检查使用hadoop fs du h path
将 Spark 添加到 Oozie 共享库

默认情况下 Oozie 共享 lib 目录提供 Hive Pig 和 Map Reduce 的库如果我想在 Oozie 上运行 Spark 作业最好将 Spark lib jar 添加到 Oozie 的共享库而不是将它们复制到应用程序
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
公平调度器和容量调度器有什么区别？

我是 Hadoop 世界的新手想了解公平调度程序和容量调度程序之间的区别另外我们什么时候应该使用每一个请简单地回答一下因为我在网上读了很多东西但从中得到的不多公平调度是一种为作业分配资源的方法使得所有作业随着时间的推移平均获得
Hadoop-reducer 如何获取数据？

据我所知映射器为每个减速器生成 1 个分区减速器如何知道要复制哪个分区假设有 2 个节点运行用于字数统计程序的映射器并且配置了 2 个缩减器如果每个映射节点生成 2 个分区并且两个节点中的分区都可能包含相同的单词作为键那么减速
与文件名中的冒号“：”作斗争

我有以下代码用于加载大量 csv gz 并将它们转储到其他文件夹中并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts
在 Google Cloud Dataproc 环境中使用 Hadoop 流式处理运行 python map reduce 作业时出错

我想使用 hadoop 流方法在 Google Cloud Dataproc 中运行 python map reduce 作业我的map reduce python脚本输入文件和作业结果输出位于Google Cloud Storage中
sqoop 通过 oozie 导出失败

我正在尝试将数据导出到mysql from hdfs通过sqoop 我可以通过 shell 运行 sqoop 并且它工作正常但是当我通过调用oozie 它出现以下错误并失败我还包括了罐子没有描述性日志 sqoop脚本 export c
Spark/Yarn：HDFS 上不存在文件

我在 AWS 上设置了 Hadoop Yarn 集群有 1 个主服务器和 3 个从服务器我已经验证我有 3 个活动节点在端口 50070 和 8088 上运行我在客户端部署模式下测试了 Spark 作业一切正常当我尝试使用 Spa
伪模式下没有名称节点错误

我是hadoop新手正处于学习阶段根据 Hadoop Definitve 指南我已将 hadoop 设置为伪分布式模式一切正常昨天我什至能够执行第三章中的所有示例今天当我重新启动我的unix并尝试运行start dfs sh然
Protobuf RPC 在 Hadoop 2.2.0 单节点服务器上不可用？

我正在尝试在按照本教程安装的本地单节点集群上运行 hadoop 2 2 0 mapreduce 作业 http codesfusion blogspot co at 2013 10 setup hadoop 2x 220 on ubuntu
Hadoop fs 查找块大小？

在 Hadoop fs 中如何查找特定文件的块大小我主要对命令行感兴趣例如 hadoop fs hdfs fs1 data 但看起来这并不存在有Java解决方案吗 The fsck其他答案中的命令列出了块并允许您查看块的数量但是要
Spark-submit，客户端无法通过以下方式进行身份验证：[TOKEN，KERBEROS]；

我使用 kerberos 设置了 hadoop 集群但是当我运行 Spark Submit 时它抛出异常 17 10 19 08 46 53 WARN scheduler TaskSetManager Lost task 0 0 in
像袋子一样压平元组

我的数据集如下所示 A 1 2 B 2 9 我想展平 Pig 中的元组基本上为内部元组中找到的每个值重复每个记录这样预期的输出是 A 1 A 2 B 2 B 9 我知道当元组 1 2 和 2 9 是袋时这是可能的你的洞察力很好可以
S3并行读写性能？

考虑 Spark 或任何其他 Hadoop 框架从 S3 读取大型例如 1 TB 文件的场景多个spark执行器如何从S3并行读取非常大的文件在 HDFS 中这个非常大的文件将分布在多个节点上每个节点都有一个数据块在对象存储中
如何将.txt文件转换为Hadoop的序列文件格式

有效利用 Map Reduce 作业Hadoop http hadoop apache org 我需要将数据存储在hadoop的序列文件格式 http hadoop apache org common docs current api or
Spark Driver 内存和 Application Master 内存

我是否正确理解客户端模式的文档客户端模式与驱动程序在应用程序主机中运行的集群模式相反在客户端模式下驱动程序和应用程序主机是单独的进程因此spark driver memory spark yarn am memory一定小于机器内存

随机推荐

《C++ Primer》读书笔记第十六章-1-定义模板

笔记会持续更新有错误的地方欢迎指正谢谢这一章特别实用神器 gt 模板泛型编程能处理在编译之前类型不知道的情况在编译时获知类型比如我们学过的容器迭代器和算法都是泛型编程模板是C 中泛型编程的基础记住一个模板就是一个创建类
netCDF文件的scale_factor和add_offset

我使用python的netCDF4读取数据发现数据集存在scale factor和add offset 但是我读取的数据应该是Unpacking data 也就是转换后的实际数据不需要再处理因为数据压缩是通过偏移和缩放之后将浮点数转化
【C++】const修饰的成员函数

在日常学习中总是碰到const修饰的成员函数自己也总是稀里糊涂的只能是靠着编译器来区分const和非const成员函数的相互调用关系今天在这里总结以下一 const修饰成员函数的格式在成员函数的后边加上const void dis
NUC980开源项目11-启动方式

上面是我的微信和QQ群欢迎新朋友的加入项目码云地址国内下载速度快 https gitee com jun626 nuc980 open source project 项目github地址 https github com Jun117
Windows7/10上快速搭建Tesseract-OCR开发环境操作步骤

之前在https blog csdn net fengbingchun article details 51628957 中描述过如何在Windows上搭建Tesseract OCR开发环境那时除了需要clone https github
MySQL——事务和视图

2023 9 17 本章开始介绍TCL语言 Transaction Control Language 事务控制语言事务事务的概念一个或一组sql语句组成一个执行单元这个执行单元要么全部执行要么全部不执行事务的特性 ACID 原子
scala---spark本地调式远程获取hdfs数据注意事项

文章目录前言一 Hadoop配置注意事项 1 1 core site xml 1 2 core site xml 二本地hadoop环境配置注意事项三本地scala项目spark代码调试总结前言这篇文章主要帮大家绕开一些本地
异常关机后Oracle无法正常连接，使用 conn /as sysdba 出现 ORA-01034 和 ORA-27101: shared memory realm does not exist...

最近异常关机导致oracle无法连接一直提示ORA 01034和ORA 27101的错误打开cmd后输入 sqlplus npolog conn as sysdba 提示 ORA 01034 Oracle not available
windows10使用WSL安装Linux(以ubuntu为例)

1 安装工具WSL 适用于 Linux 的 Windows 子系统 WSL 可让开发人员直接在 Windows 上按原样运行 GNU Linux 环境包括大多数命令行工具实用工具和应用程序且不会产生传统虚拟机或双启动设置开销是win
浙大水业oa系统服务器地址,OA系统

OA系统功能定位于知识管理企业决策支持资源共享和企业协同工作它由单纯的办公自动化向提升到协助管理整个企业为目标表现在以下四个方面把协同工作融入业务流程中团队中通过及时的交流准确的任务分派从而实现高绩效管理 E OFFICE办公
通过js修改网页内容

js可以通过文本所在标签的id获取该标签对象然后修改其内容如 document getElementById 标签id innerHTML 要修改的文本内容该方法可以在要修改的文本内容中加html标签如果只是纯文本的话可以使用in
严重性代码说明项目文件行禁止显示状态

严重性代码说明项目文件行禁止显示状态错误 LNK2019 无法解析的外部符号 public void thiscall LinkedList
解决ubuntu无法输入中文标点

使用Ctrl 切换
ListBox控件滚动条

今天在使用LISTBOX控件中遇到的一点小问题主要是两个问题水平滚动条不显示内容垂直滚动条没有自动滚动在网上查了一下找到了解决办法原来只需要向控件发送消息就行了具体代码如下以下都是在Dialog类中的函数操作如果是使用 Se
C++编程规范（101条规则、准则与最佳实践）

C 编程规范 101条规则准则与最佳实践虽然是书本的目录但也是高度的概括和总结组织和策略问题第0条不要拘泥于小节了解哪些东西不应该标准化第1 条在高警告级别干净利落地进行编译第2 条使用自动构建系统第3 条使用版本
解决uniapp在微信小程序显示图片/数据，h5不显示图片/数据。

配置跨域首先在mainifest json中的源码视图中配置跨域 h5 devServer port 8080 disableHostCheck true proxy dpc target https www edonguoji cn c
Linux系统编程之常用线程同步的三种方法

Linux系统编程之线程同步高效率编程 Linux系统中线程最大的特点就是共享性线程同步问题较为困难也很重要最常用的三种是条件变量互斥锁无名信号量 ps 有名信号量可用于进程同步无名信号量只能用于线程同步是轻量级的一互斥锁
Google Guava

转载自并发编程网 ifeve com 本文链接地址 Google Guava官方教程中文版中文文档 http ifeve com google guava 开源地址 https github com google guava 今天偶然发
swagger3或者swagger报nullpointexception

很简单这个问题就是版本不匹配就是2 6 0以上版本的springbootmvc扫描方法和老版本不同在springboot配置 application yml 里面加上如果是properties则是加上 spring mvc pathma
配置Spark on YARN集群内存

在这里插入代码片运行文件有几个G大默认的spark的内存设置就不行了需要重新设置还没有看Spark源码只能先搜搜相关的博客解决问题按照Spark应用程序中的driver分布方式不同 Spark on YARN有两种模式 yarn

配置Spark on YARN集群内存

配置Spark on YARN集群内存 的相关文章

随机推荐

热门标签

配置Spark on YARN集群内存的相关文章