hadoop MapReduce总体工作机制简述

2023-11-13

问题导读：
1、如何理解MapTask运行机制？
2、如何理解Map阶段机制？
3、如何理解ReduceTask 工作机制？
4、如何理解MapReduce总体工作机制？

MapTask运行机制详解

整个Map阶段流程大体如图所示

简单概述

inputFile通过split被逻辑切分为多个split文件，
通过Record按行读取内容给map（用户自己实现的）进行处理，
数据被map处理结束之后交给OutputCollector收集器，对其结果key进行分区（默认使用hash分区），
然后写入buffer，每个map task都有一个内存缓冲区，
存储着map的输出结果，
当缓冲区快满的时候需要将缓冲区的数据以一个临时文件的方式存放到磁盘，
当整个map task结束后再对磁盘中这个map task产生的所有临时文件做合并，
生成最终的正式输出文件，然后等待reduce task来拉数据。

Map阶段详解

详细步骤：

1.首先，读取数据组件InputFormat（默认TextInputFormat）会通过getSplits方法对输入目录中文件进行逻辑切片规划得到splits，有多少个split就对应启动多少个MapTask。默认情况下split与block的对应关系默认是一对一。Block块默认大小是128M 那么split分割时也是按照128分割

2.将输入文件切分为splits之后，由RecordReader对象（默认LineRecordReader）进行读取，以\n作为分隔符，读取一行数据，返回<key，value>。Key表示每行首字符偏移值，value表示这一行文本内容。

3.读取split返回<key,value>，进入用户自己继承的Mapper类中，执行用户重写的map函数。RecordReader读取一行用户重写的map调用一次，并输出一个<key,value>。

4.Map输出的数据会写入内存，内存中这片区域叫做环形缓冲区，缓冲区的作用是批量收集map结果，减少磁盘IO的影响。key/value对以及Partition的结果都会被写入缓冲区。当然写入之前，key与value值都会被序列化成字节数组。

环形缓冲区其实是一个数组，数组中存放着key、value的序列化数据和key、value的元数据信息，包括partition、key的起始位置、value的起始位置以及value的长度。环形结构是一个抽象概念。

缓冲区是有大小限制，默认是100MB。当map task的输出结果很多时，就可能会撑爆内存，所以需要在一定条件下将缓冲区中的数据临时写入磁盘，然后重新利用这块缓冲区。这个从内存往磁盘写数据的过程被称为Spill，中文可译为溢写。这个溢写是由单独线程来完成，不影响往缓冲区写map结果的线程。溢写线程启动时不应该阻止map的结果输出，所以整个缓冲区有个溢写的比例spill.percent。这个比例默认是0.8，也就是当缓冲区的数据已经达到阈值（buffer size * spill percent = 100MB * 0.8 = 80MB），溢写线程启动，锁定这80MB的内存，执行溢写过程。Map task的输出结果还可以往剩下的20MB内存中写，互不影响。

5.合并溢写文件：每次溢写会在磁盘上生成一个临时文件（写之前判断是否有combiner），如果map的输出结果真的很大，有多次这样的溢写发生，磁盘上相应的就会有多个临时文件存在。当整个数据处理结束之后开始对磁盘中的临时文件进行merge合并，因为最终的文件只有一个，写入磁盘，并且为这个文件提供了一个索引文件，以记录每个reduce对应数据的偏移量。
至此map整个阶段结束。

[Shell] 纯文本查看 复制代码

mapTask的一些基础设置配置（mapred-site.xml当中社会）：

设置一：设置环型缓冲区的内存值大小（默认设置如下）

mapreduce.task.io.sort.mb：100

设置二：设置溢写百分比（默认设置如下）

mapreduce.map.sort.spill.percent：0.80

设置三：设置溢写数据目录（默认设置）

mapreduce.cluster.local.dir：${hadoop.tmp.dir}/mapred/local

设置四：设置一次最多合并多少个溢写文件（默认设置如下）

mapreduce.task.io.sort.factor：10

个人理解—Map 输出数据到内存

map输出的数据写入环形缓冲区（内存），缓冲区的默认大小是100M（可修改）。
当数据达到阈值（默认0.8-可修改）时，环形缓冲区进行flash,
环形缓冲区：数据在输出的同时，数据也可以写入空余的空间内。
当flash的数据个数达到一定的数量时（默认4个）。对数据进行合并（merge）。

ReduceTask 工作机制

Reduce大致分为copy、sort、reduce三个阶段，
重点在前两个阶段。
copy阶段包含一个eventFetcher来获取已完成的map列表，
由Fetcher线程去copy数据，在此过程中会启动两个merge线程，
分别为inMemoryMerger和onDiskMerger，
分别将内存中的数据merge到磁盘和将磁盘中的数据进行merge。
待数据copy完成之后，copy阶段就完成了，开始进行sort阶段，sort阶段主要是执行finalMerge操作，纯粹的sort阶段，完成之后就是reduce阶段，调用用户定义的reduce函数进行处理。

Reduce阶段详解

详细步骤

1、Copy阶段，简单地拉取数据。Reduce进程启动一些数据copy线程(Fetcher)，通过HTTP方式请求maptask获取属于自己的文件。

2、Merge阶段。这里的merge如map端的merge动作，只是数组中存放的是不同map端copy来的数值。Copy过来的数据会先放入内存缓冲区中，这里的缓冲区大小要比map端的更为灵活。merge有三种形式：内存到内存；内存到磁盘；磁盘到磁盘。默认情况下第一种形式不启用。当内存中的数据量到达一定阈值，就启动内存到磁盘的merge。与map 端类似，这也是溢写的过程，这个过程中如果你设置有Combiner，也是会启用的，然后在磁盘中生成了众多的溢写文件。第二种merge方式一直在运行，直到没有map端的数据时才结束，然后启动第三种磁盘到磁盘的merge方式生成最终的文件。

3、合并排序。把分散的数据合并成一个大的数据后，还会再对合并后的数据排序。

4、对排序后的键值对调用reduce方法，键相等的键值对调用一次reduce方法，每次调用会产生零个或者多个键值对，最后把这些输出的键值对写入到HDFS文件中。
个人理解----Reduce在Map拷贝数据

Map 输出的结果写入本地，reduce主动发出拷贝进程到Map端拷贝数据。
reduce获取大数据后，将数据写入内存，当数据达到阈值时进行flash.
当flash的个数达到一定的量时，进行合并，最终发送给reduce

MapReduce总体工作机制

map逻辑完之后，将map的每条结果通过context.write进行collect数据收集。在collect中，会先对其进行分区处理，默认使用HashPartitioner。
MapReduce提供Partitioner接口，它的作用就是根据key或value及reduce的数量来决定当前的这对输出数据最终应该交由哪个reduce task处理。默认对key hash后再以reduce task数量取模。默认的取模方式只是为了平均reduce的处理能力，如果用户自己对Partitioner有需求，可以订制并设置到job上。

当溢写线程启动后，需要对这80MB空间内的key做排序(Sort)。排序是MapReduce模型默认的行为，这里的排序也是对序列化的字节做的排序。

如果job设置过Combiner，那么现在就是使用Combiner的时候了。将有相同key的key/value对的value加起来，减少溢写到磁盘的数据量。Combiner会优化MapReduce的中间结果，所以它在整个模型中会多次使用。

哪些场景才能使用Combiner呢？从这里分析，Combiner的输出是Reducer的输入，Combiner绝不能改变最终的计算结果。Combiner只应该用于那种Reduce的输入key/value与输出key/value类型完全一致，且不影响最终结果的场景。比如累加，最大值等（求平均值绝不能用Combiner）。Combiner的使用一定得慎重，如果用好，它对job执行效率有帮助，反之会影响reduce的最终结果。

Split对数据进行逻辑切分

hdfs数据块大小是128 ，split 逻辑切分数据块大小是128M
HDFS 128 是存储层面的概念，是切分数据的分界点。
split 128 是一个逻辑切分。
这两个128没有关系。

Shuffle阶段是在Map的输出到Reduce的输入
流程角度

内存角度

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

MapReduce

hadoop MapReduce总体工作机制简述的相关文章

错误：java.io.IOException：错误值类：类 org.apache.hadoop.io.Text 不是类 Myclass

我的映射器和减速器如下但我遇到了某种奇怪的异常我不明白为什么它会抛出这种异常 public static class MyMapper implements Mapper
Hadoop：处理大型序列化对象

我正在开发一个应用程序来使用 Hadoop 框架处理和合并几个大型 java 序列化对象顺序 GB 大小 Hadoop 存储将文件块分布在不同的主机上但由于反序列化需要所有块都存在于单个主机上因此它会极大地影响性能我该如何处理这
Curl下载到HDFS

我有这个代码 curl o fileName csv url xargs hdfs dfs moveFromLocal 1 somePath 当我执行此代码时 curl 将请求中的值放入 fileName csv 中该文件将移动到 HDF
Hive 中字符串数据类型是否有最大大小？

谷歌了很多但没有在任何地方找到它或者这是否意味着只要允许集群 Hive 就可以支持任意大字符串数据类型如果是这样我在哪里可以找到我的集群可以支持的最大字符串数据类型大小提前致谢 Hive 列表的当前文档STRING作为有效的数据类
在 mongo 中，如何使用 Map Reduce 来按最近排序来获取组

我看到的 MapReduce 示例使用了诸如 count 之类的聚合函数但是使用 MapReduce 来获取每个类别中前 3 个项目的最佳方法是什么我假设我也可以使用 group 函数但很好奇因为他们声明分片环境不能使用 group
Couchbase/hadoop 连接器：sqoop 作业失败“找到接口 org.apache.hadoop.mapreduce.TaskAttemptContext，但需要类”

我的配置 CouchBase服务器2 0 Sqoop 1 4 2 针对hadoop版本2 0 0编译堆栈Hadoop CDH4 1 2 我想使用 CouchBase Hadoop 连接器 http www couchbase com de
如果 HBase 不是运行在分布式环境中，它还有意义吗？

我正在构建数据索引这将需要以形式存储大量三元组 document term weight 我将存储多达几百万个这样的行目前我正在 MySQL 中将其作为一个简单的表来执行我将文档和术语标识符存储为字符串值而不是其他表的外键我正在重
hadoop2.2.0追加文件发生AlreadyBeingCreatedException

我遇到了一个关于hadoop2 2 0追加操作的问题我通过 HDFS java API 将一些字节附加到 hdfs 文件首先如果在附加操作之前文件不存在我将创建目标文件代码如下 String fileUri hdfs hadoop
猪如何过滤不同的对（对）

我是猪的新手我有一个 Pig 脚本它在两个元素之间生成制表符分隔的对每行一对例如 John Paul Tom Nik Mark Bill Tom Nik Paul John 我需要过滤掉重复的组合如果我使用 DISTINCT 我会
R+Hadoop：如何从HDFS读取CSV文件并执行mapreduce？

在以下示例中 small ints to dfs 1 1000 mapreduce input small ints map function k v cbind v v 2 MapReduce函数的数据输入是一个名为small ints的
获取行 HBase 的特定列族中的列

我正在编写一个应用程序通过 JSP 显示 HBase 中特定表中的数据我想获取一行的特定列族中的所有列有什么办法可以做到这一点吗 public String getColumnsInColumnFamily Result r Stri
在 Amazon EMR 上使用 java 中的 hbase 时遇到问题

因此我尝试使用作为 MapReduce 步骤启动的自定义 jar 来查询 Amazon ec2 上的 hbase 集群我的 jar 在地图函数内我这样调用 Hbase public void map Text key BytesWri
mongodb - 检索数组子集

看似简单的任务对我来说是一个挑战我有以下 mongodb 结构 services TCP80 data status 1 delay 3 87 ts 1308056460 status 1 delay 2 83 ts 1308058080
如何使用 Amazon 的 EMR 在 CLI 中使用自定义 jar 指定 mapred 配置和 java 选项？

我想知道如何指定mapreduce配置例如mapred task timeout mapred min split size等等当使用自定义 jar 运行流作业时当我们使用 ruby 或 python 等外部脚本语言运行时我们可以使
如何通过Python访问Hive？

https cwiki apache org confluence display Hive HiveClient HiveClient Python https cwiki apache org confluence display Hi
hive 从两个数组创建映射或键/值对

我有两个具有相同数量值的数组它们映射为 1 1 我需要从这两个数组创建一个键值对或映射键值任何想法或提示都会有帮助当前表结构 USA WEST NUMBER Street City 135 Pacific Irvine USA
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
如何将SQL数据加载到Hortonworks中？

我已在我的电脑中安装了 Hortonworks SandBox 还尝试使用 CSV 文件并以表结构的方式获取它这是可以的 Hive Hadoop nw 我想将当前的 SQL 数据库迁移到沙箱 MS SQL 2008 r2 中我将如何做
猪的组连接等效吗？

试图在 Pig 上完成这个任务寻找 MySQL 的 group concat 等效项例如在我的表中我有以下内容 3fields userid clickcount pagenumber 155 2 12 155 3 133 155

随机推荐

三十五、android adb命令详解

cmd常用控制台1 清屏命令 cls2 列出当前目录详细信息 dir3 删除文件 del xxx txt android adb常用命令1 创建sdcardmksdcard 50M D sdcard img gt 创建一张容量为50M的SD
微信小程序文字换行符

在微信小程序开发中有一个需求是展示长文本后端返回的数据包含了 n n let str 第一段 n n第二段如果将这段文字直接赋值
Kali Linux-网络安全之-XSS 跨站脚本攻击原理及 DVWA 靶机的搭建

XSS 跨站脚本攻击使用 JavaScript 创建 Cookie JavaScript 可以使用 document cookie 属性来创建读叏及删除 cookie 例 1 JavaScript 中创建 cookie 如下所示 d
Jupyter Lab入门到精通

Jupyter Lab Jupyter Notebook Jupyter Lab可以理解成Jupyter Notebook的升级版本升级增加了很多功能其支持python R java等多种编程语言及markdown letex等写作语言
MATLAB学习笔记：

MATLAB学习笔记 MATLAB 变量命名规则变量名区分大小写变量名长度不超过63位变量名以字母开头可以由字母数字和下划线组成但不能使用标点变量名应简洁明了通过变量名可以只管看出所表示的物理意义 ch5 C textsca
Pytorch基础学习（第一章-PyTorch基础概念）

课程一览表目录一 pytorch简介二环境配置 1 pycharm 2 annaconda 3 安装pytorch
altium designer芯片引脚间距规则过小

AD中芯片的引脚间距过小例如stm32这种MCU 引脚又细又密违反了默认间距规则如上图所示的16mil 而触发绿色的报错但是我们又不能因噎废食而把整个PCB规则间距改大因此最好的解决方案是只修改这一个芯片的间距规则依次点击
云汉芯城js逆向分析-v,t,s参数

介绍查看搜索的接口很明显需要这几个参数 keyword 2N7002 搜索输入的关键词 font ident 945a41f33fc9693c 如下图第一次访问的页面返回的html里找 v 1655799627669 时间戳 t 1
Android平台GB28181设备接入模块相关博客概览

Android平台GB28181设备接入模块可实现不具备国标音视频能力的 Android终端通过平台注册接入到现有的GB T28181 2016服务可用于如智能监控智慧零售智慧教育远程办公生产运输智慧交通车载或执法记录仪等
从零开始 verilog 以太网交换机（六）帧处理单元设计与实现

从零开始 verilog 以太网交换机六帧处理单元设计与实现声明博主主页王嘻嘻的CSDN主页从零开始 verilog 以太网交换机系列专栏点击这里未经作者允许禁止转载侵权必删关注本专题的朋友们可以收获一个经典交换机设
数据结构——栈（stack）

一顺序栈栈 stack 是一种运算受限的线性表其限制是仅允许在表的一端进行插入和删除运算这一端被称为栈顶相对地把另一端称为栈底向一个栈插入新元素又称作进栈入栈或压栈它是把新元素放到栈顶元素的上面使之成为新的栈顶元素从一
java中如何从一个url的字符串中提取出ip、port等信息

欢迎访问个人博客德鲁大叔撸代码项目中有一个功能是把我生成的对账单推送到商户指定的sftp服务器上要上传文件到sftp那必须的就有以下几个数据 sftp的ip sftp所指向的port sftp的用户名 sftp的密码指定sftp上
安装HP LaserJet 1320n打印机驱动

该打印机型号比较老了不是网络打印机只能通过并口或USB安装由于笔记本不带并口现在台式机基本都不带了只能选择USB安装折腾了好久才找到正确的安装方法特分享给大家首先就是找到正确的驱动我的笔记本是win8 64bit的所
Ioc容器refresh总结(4)--- Spring源码从入门到精通（三十四 )

上偏文章介绍了 registerBeanPostProcessor 分别按优先级顺序先注册PriorityOrdered和Ordered接口第三部注册没有实现接口的beanPostProcessor 最后注册mergedBeanDefin
特征选取1-from sklearn.feature_selection import SelectKBest

sklearn实战乳腺癌细胞数据挖掘博主亲自录制视频 https study 163 com course introduction htm courseId 1005269003 utm campaign commission utm
从入门到入土：[SEED-Lab]-SQL注入攻击

此博客仅用于记录个人学习进度学识浅薄若有错误观点欢迎评论区指出欢迎各位前来交流部分材料来源网络若有侵权立即删除本人博客所有文章纯属学习之用不涉及商业利益不合适引用自当删除若被用于非法行为与我本人无关 SEED Lab
Flex 学习资源

Action Script 3 0 帮助 http help adobe com zh CN ActionScript 3 0 ProgrammingAS3 Flex 实例 http blog minidx com 2009 04 06 2
计算机文献汇报ppt,常见的研究生文献汇报.ppt

常见的研究生文献汇报 Example two Fig 9 shows a schematic illustration of the synthesis routes of single molecular nano particles m
《Android 开发艺术探索》笔记7--RemoteViews的内部机制和意义

RemoteViews的内部机制和意义思维导图 RemoteViews的内部机制 RemoteViews的意义可以模拟一个通知栏效果并实现跨进程的UI更新参看文章 RemoteViews的内部机制和意义思维导图 RemoteViews的内
hadoop MapReduce总体工作机制简述

问题导读 1 如何理解MapTask运行机制 2 如何理解Map阶段机制 3 如何理解ReduceTask 工作机制 4 如何理解MapReduce总体工作机制 MapTask运行机制详解整个Map阶段流程大体如图所示简单概述inputFi

hadoop MapReduce总体工作机制简述

hadoop MapReduce总体工作机制简述 的相关文章

随机推荐

热门标签

hadoop MapReduce总体工作机制简述的相关文章