【Hadoop离线基础总结】MapReduce参数优化

2023-11-20

MapReduce参数优化


资源相关参数
  • 这些参数都需要在mapred-site.xml中配置

    mapreduce.map.memory.mb
    一个 MapTask 可使用的资源上限(单位:MB),默认为1024
    如果 MapTask 实际使用的资源量超过该值,则会被强制杀死。

    mapreduce.reduce.memory.mb
    一个 ReduceTask 可使用的资源上限(单位:MB),默认为1024
    如果 ReduceTask 实际使用的资源量超过该值,则会被强制杀死。

    mapred.child.java.opts
    配置每个 map 或者 reduce 使用的内存的大小,默认是200M

    mapreduce.map.cpu.vcores
    每个 MapTask 可使用的最多 CPU Core 数目, 默认值: 1

    mapreduce.reduce.cpu.vcores
    每个 ReduceTask 可使用的最多 CPU Core 数目, 默认值: 1
    最后两个vcores指的是virtual core/虚拟核处理器

    剩下两个参数要在yarn集群启动之前配置
    mapreduce.task.io.sort.mb
    shuffle的环形缓冲区大小,默认 100M

    mapreduce.map.sort.spill.percent
    环形缓冲区溢出的阈值,默认 80%

  • 这些参数都需要在yarn-site.xml中配置(在yarn集群启动之前进行配置)

    yarn.scheduler.minimum-allocation-mb
    给应用程序container分配的最小内存,默认 1024M

    yarn.scheduler.maximum-allocation-mb
    给应用程序container分配的最大内存,默认 8192M

    yarn.scheduler.minimum-allocation-vcores
    container最小的虚拟内核的个数,默认 1

    yarn.scheduler.maximum-allocation-vcores
    container最大的虚拟内核的个数,默认 32

    yarn.nodemanager.resource.memory-mb
    给每个nodemanager的内存资源,默认 8192M


容错相关参数
  • mapreduce.map.maxattempts
    每个Map Task最大重试次数,一旦重试参数超过该值,则认为Map Task运行失败,默认值:4
  • mapreduce.reduce.maxattempts
    每个Reduce Task最大重试次数,一旦重试参数超过该值,则认为Map Task运行失败,默认值:4
  • mapreduce.job.maxtaskfailures.per.tracker
    当失败的 MapTask 失败比例超过该值时,整个作业则失败,默认值为 0
    如果你的应用程序允许丢弃部分输入数据,则该该值设为一个大于0的值。
    比如5,表示如果有低于5%的MapTask失败,整个作业仍认为成功。
  • mapreduce.task.timeout
    Task超时时间,默认值为600000毫秒(经常需要设置的一个参数)
    该参数表达的意思为:如果一个task在一定时间内没有任何进入,即不会读取新的数据,也没有输出数据,则认为该task处于block状态,可能是卡住了
    为了防止因为用户程序永远block住不退出,则强制设置了一个该超时时间。如果你的程序对每条输入数据的处理时间过长(比如会访问数据库,通过网络拉取数据等),建议将该参数调大.
    该参数过小常出现的错误提示AttemptID:attempt_14267829456721_123456_m_000224_0 Timed out after 300 secsContainer killed by the ApplicationMaster.
  • 一般一个任务长时间没有完成,可能是因为数据倾斜造成的
    数据倾斜:大量的数据都涌到同一个reduceTask里面去,造成一个reduceTask里面处理得数据量太大,迟迟不能完成。比如,reduceTakss完成80%就不动了,很有可能就是发生了数据倾斜。

效率和稳定性相关参数
  • mapreduce.map.speculative
    是否为Map Task打开推测执行机制,默认为true。
    如果Map执行时间比较长,那么集群就会推测这个Map已经卡住了,会重新启动同样的Map进行并行的执行,哪个先执行完了,就采取哪个的结果来作为最终结果
  • mapreduce.reduce.speculative
    是否为Reduce Task打开推测执行机制,默认为true。
    如果reduce执行时间比较长,那么集群就会推测这个reduce已经卡住了,会重新启动同样的reduce进行并行的执行,哪个先执行完了,就采取哪个的结果来作为最终结果

推测执行并不能解决数据倾斜的问题,反而会更加浪费内存资源,所以一般关掉

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【Hadoop离线基础总结】MapReduce参数优化 的相关文章

随机推荐

  • 向量叉乘判断顺时针还是逆时针

    可以通过向量的叉乘判断一条线旋转的过程是顺时针还是逆时针的 有两个向量AB和AC 将两个向量进行叉乘 direct AB x AC 当direct gt 0时 为逆时针旋转 当direct lt 0时为顺时针旋转 当写类似于旋转按钮的控件的
  • 螺纹检测案例-螺距测量-大径小径检测-螺牙检测

    齿轮检测分析 Gear inspection and analysis 螺纹结构及检测要素 1 大径 宽径 2 小径 窄径 3 中经 4 螺距 间距 5 螺牙高度 深度 VisionBank 软件螺纹检测工具 02 01 螺纹检测分析流程
  • 高性能MySQL实战(二):索引

    我们在上篇 高性能MySQL实战 一 表结构 中已经建立好了表结构 这篇我们则是针对已有的表结构和搜索条件为表创建索引 1 根据搜索条件创建索引 我们还是先将表结构的初始化 SQL 拿过来 CREATE TABLE service log
  • 野火STM32F103教学视频完整目录(配合霸道-指南者开发板)

    野火STM32F103教学视频 P1 入门篇 2 如何安装KEIL5 flv 野火STM32F103教学视频 P2 入门篇 3 如何使用DAP仿真器下载程序 flv 野火STM32F103教学视频 P3 入门篇 4 串口ISP一键下载原理分
  • tmux使用方法

    tmux使用指南 比screen好用n倍 知乎 当你开启一个session的时候会默认开启一个window 这个截图就是一个window 而这个window可以拆成很多分subwindow 在这里就是 左上角Asubwindow 左下角Bs
  • 微信小程序优化多次跳转后卡顿问题

    一 微信小程序多次跳转会产生卡顿的原理 通过wx navigateTo 跳转 都会出现保留当前页面 打开新的页面机制 wx navigateTo不会将旧页面出栈 会将新页面入栈 栈内元素个数增加 栈内元素5个时 不能再跳转 手机性能好点 可
  • fastjson的JSONObject.toJSONString方法失效问题

    String toJSONString Object object 问题 该方法序列化的object对象 需要Object类中包含属性的get方法 如果没有get方法 则会序列化出一个空数组 解决 增加 Data注解 或 添加成员变量的ge
  • DOM编程2-重要案例!!!

    2 操作表格 2 1表格对象的属性和方法 2 2表格行对象的属性和方法 2 3表格单元格对象的属性和方法 3 案例演示 3 1表格案例 3 1 1修改标题样式 3 1 2在表格末尾追新增一行 3 1 3删除第二行 3 1 4复制最后一行 订
  • Docker命令指南

    文章目录 前言 一 基础命令 前言 记录一些基本的Docker命令 一 基础命令 docker version docker的详细信息 docker info docker的系统信息 docker help docker帮助手册 docke
  • CodeBlocks+wxWidgets

    之前也安装过CodeBlocks 只是当时没有安装wxWidgets 试着新建一个wxWidgets工程后没有看到界面设计的东东就放弃了 今天发现群里的南果梨也在用CodeBlocks 在他的帮助也终于成功的安装了wxWidgets 到ww
  • 008-黑盒测试和白盒测试的优缺点

    黑盒测试和白盒测试的优缺点 黑盒测试的优点有 比较简单 不需要了解程序内部的代码及实现 与软件的内部实现无关 从用户角度出发 能很容易的知道用户会用到哪些功能 会遇到哪些问题 基于软件开发文档 所以也能知道软件实现了文档中的哪些功能 在做软
  • js执行shell命令的几种方式(Node)

    在做一个客户端基建项目的时候 多处需要用到JS调取命令行执行shell脚本 这里对shell命令 JS执行shell命令做一个简单的介绍和总结 前言 一般在纯前端静态页面的项目中 是不需要JS调命令行操作的 通常在Node项目 或者在Ele
  • 超级详细的wordpress个人博客搭建教程(图文结合)!

    一 什么是云服务器 云服务器 ElasticComputeService ECS 是一种简单高效 安全可靠 处理能力可弹性伸缩的计算服务 其管理方式比物理服务器更简单高效 用户无需提前购买硬件 即可迅速创建或释放任意多台云服务器 云服务器帮
  • css里面的after_css after是什么?

    after是CSS的一种伪元素选择器 用于在被选元素的内容后面插入内容 通常会配合使用content属性来指定要插入的内容 after选择器的作用就是在指定的元素内容 而不是元素本身 之后插入一个包含content属性指定内容的行内元素 A
  • QT中的tcp一个服务器处理多个客户端

    客户端 我们先在头文件中 在头文件中添加 include
  • 提高C++性能的编程技术笔记:单线程内存池+测试代码

    频繁地分配和回收内存会严重地降低程序的性能 性能降低的原因在于默认的内存管理是通用的 应用程序可能会以某种特定的方式使用内存 并且为不需要的功能付出性能上的代价 通过开发专用的内存管理器可以解决这个问题 对专用内存管理器的设计可以从多个角度
  • 开源框架若依实战Demo学习笔记

    若依是个不错的框架 下面是我用他写的一个简单demo 以后会在此基础上进行进一步的开发 下面是整合的过程 我在整合的过程中可谓是一波三折 大家如果不想走弯路 那么这篇文章将对你很有帮助 首先 项目代码地址先列出来 方便大家下载使用 这是整理
  • GD32F103基础教程—硬件介绍(四)

    一 教程简介 本章主要是对MINI GD32F103C8T6 凌智基础开发 板的硬件进行介绍 以及一些对应的电路原理进行说明 对应的原理图以及生成的库文件都在资料文件里面有提供 可以直接使用 图1 设计原理图 二 相关事项 1 核心处理器
  • iOS自动布局——Masonry详解

    欢迎大家前往腾讯云 社区 获取更多腾讯海量技术实践干货哦 本文由鹅厂新鲜事儿发表于云 社区专栏 作者 oceanlong 腾讯 移动客户端开发工程师 前言 UI布局是整个前端体系里不可或缺的一环 代码的布局是设计语言与用户视觉感受沟通的桥梁
  • 【Hadoop离线基础总结】MapReduce参数优化

    MapReduce参数优化 资源相关参数 这些参数都需要在mapred site xml中配置 mapreduce map memory mb 一个 MapTask 可使用的资源上限 单位 MB 默认为1024 如果 MapTask 实际使