Hadoop2.6（新版本）----MapReduce工作原理

2023-11-14

最近在研究Hadoop,发现网上的一些关于Hadoop的资料都是以前的1.X版本的,包括MapReduce的工作原理,都是以前的一些过时了的东西,所以自己重新整理了一些新2.X版本的MapReduce的工作原理

下面我画了一张图,便于理解MapReduce得整个工作原理

下面对上面出现的一些名词进行介绍

ResourceManager：是YARN资源控制框架的中心模块，负责集群中所有的资源的统一管理和分配。它接收来自NM(NodeManager)的汇报，建立AM，并将资源派送给AM(ApplicationMaster)。

NodeManager:简称NM，NodeManager是ResourceManager在每台机器的上代理，负责容器的管理，并监控他们的资源使用情况（cpu，内存，磁盘及网络等），以及向 ResourceManager提供这些资源使用报告。

ApplicationMaster:以下简称AM。YARN中每个应用都会启动一个AM，负责向RM申请资源，请求NM启动container，并告诉container做什么事情。

Container：资源容器。YARN中所有的应用都是在container之上运行的。AM也是在container上运行的，不过AM的container是RM申请的。

1. Container是YARN中资源的抽象，它封装了某个节点上一定量的资源（CPU和内存两类资源）。

2. Container由ApplicationMaster向ResourceManager申请的，由ResouceManager中的资源调度器异步分配给ApplicationMaster；
3. Container的运行是由ApplicationMaster向资源所在的NodeManager发起的，Container运行时需提供内部执行的任务命令（可以是任何命令，比如java、Python、C++进程启动命令均可）以及该命令执行所需的环境变量和外部资源（比如词典文件、可执行文件、jar包等）。
另外，一个应用程序所需的Container分为两大类，如下：
（1）运行ApplicationMaster的Container：这是由ResourceManager（向内部的资源调度器）申请和启动的，用户提交应用程序时，可指定唯一的ApplicationMaster所需的资源；
（2）运行各类任务的Container：这是由ApplicationMaster向ResourceManager申请的，并由ApplicationMaster与NodeManager通信以启动之。
以上两类Container可能在任意节点上，它们的位置通常而言是随机的，即ApplicationMaster可能与它管理的任务运行在一个节点上。

整个MapReduce的过程大致分为 Map-->Shuffle（排序）-->Combine（组合）-->Reduce

下面通过一个单词计数案例来理解各个过程
1）将文件拆分成splits(片)，并将每个split按行分割形成<key,value>对，如图所示。这一步由MapRedu

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop2.6（新版本）----MapReduce工作原理的相关文章

当与curl一起使用--negotiate时，是否需要keytab文件？

The 文档 http hadoop apache org docs stable hadoop project dist hadoop hdfs WebHDFS html描述如何连接到 kerberos 安全端点显示以下内容 curl i
java.lang.IllegalArgumentException：错误的 FS：，预期：hdfs://localhost:9000

我正在尝试实现reduce side join 并使用mapfile reader来查找分布式缓存但在stderr中检查时它没有查找值它显示以下错误 lookupfile文件已经存在于hdfs中并且似乎已正确加载进入缓存如标准输出中
Hadoop setInputPathFilter错误

我正在使用 Hadoop 0 20 2 无法更改并且我想向我的输入路径添加一个过滤器数据如下 path1 test a1 path1 test a2 path1 train a1 path1 train a2 我只想处理所有文件trai
Cat 文件与 HDFS 中的模式不匹配？

我正在尝试 cat 与 hadoop HDFS 中的以下模式不匹配的文件 hdfs dfs cat gz 如何捕获所有不以 gz 结尾的文件编辑抱歉但我需要在 Hadoop 中管理文件显然 hdfs 附带的命令非常少编辑2 所有文
将 hadoop fs 路径转换为 EMR 上的 hdfs:// 路径

我想知道如何将数据从 EMR 集群的 HDFS 文件系统移动到 S3 存储桶我认识到我可以直接在 Spark 中写入 S3 但原则上之后执行它也应该很简单到目前为止我还没有发现在实践中这是正确的 AWS 文档建议s3 dist cp
Hive 中字符串数据类型是否有最大大小？

谷歌了很多但没有在任何地方找到它或者这是否意味着只要允许集群 Hive 就可以支持任意大字符串数据类型如果是这样我在哪里可以找到我的集群可以支持的最大字符串数据类型大小提前致谢 Hive 列表的当前文档STRING作为有效的数据类
在 Hive 中分解一行 XML 数据

我们将 XML 数据作为名为 XML 的单个字符串列加载到 Hadoop 中我们正在尝试检索数据级别并将其标准化或分解为单行进行处理你知道就像表格一样已经尝试过分解功能但没有得到我们想要的示例 XML
Spark MLLib 存在问题，导致概率和预测对于所有内容都相同

我正在学习如何将机器学习与 Spark MLLib 结合使用目的是对推文进行情感分析我从这里得到了一个情感分析数据集 http thinknook com wp content uploads 2012 09 Sentiment Ana
使用 Hadoop 映射两个数据集

假设我有两个键值数据集数据集A和B 我们称它们为数据集A和B 我想用 B 组的数据更新 A 组中的所有数据其中两者在键上匹配因为我要处理如此大量的数据所以我使用 Hadoop 进行 MapReduce 我担心的是为了在 A 和 B
在 Hadoop 中处理带标头的文件

我想在 Hadoop 中处理很多文件每个文件都有一些头信息后面跟着很多记录每个记录都存储在固定数量的字节中对此有何建议我认为最好的解决方案是编写一个自定义的InputFormat http hadoop apache org co
hadoop2.2.0追加文件发生AlreadyBeingCreatedException

我遇到了一个关于hadoop2 2 0追加操作的问题我通过 HDFS java API 将一些字节附加到 hdfs 文件首先如果在附加操作之前文件不存在我将创建目标文件代码如下 String fileUri hdfs hadoop
猪如何过滤不同的对（对）

我是猪的新手我有一个 Pig 脚本它在两个元素之间生成制表符分隔的对每行一对例如 John Paul Tom Nik Mark Bill Tom Nik Paul John 我需要过滤掉重复的组合如果我使用 DISTINCT 我会
R+Hadoop：如何从HDFS读取CSV文件并执行mapreduce？

在以下示例中 small ints to dfs 1 1000 mapreduce input small ints map function k v cbind v v 2 MapReduce函数的数据输入是一个名为small ints的
Namenode高可用客户端请求

谁能告诉我如果我使用java应用程序请求一些文件上传下载操作到带有Namenode HA设置的HDFS 这个请求首先去哪里我的意思是客户端如何知道哪个名称节点处于活动状态如果您提供一些工作流程类型图或详细解释请求步骤从开始到结束
如何将Hive数据表迁移到MySql？

我想知道如何将日期从 Hive 转移到 MySQL 我看过有关如何将 Hive 数据移动到 Amazon DynamoDB 的示例但没有看到有关如何将 Hive 数据移动到 MySQL 等 RDBMS 的示例这是我在 DynamoDB
mongodb - 检索数组子集

看似简单的任务对我来说是一个挑战我有以下 mongodb 结构 services TCP80 data status 1 delay 3 87 ts 1308056460 status 1 delay 2 83 ts 1308058080
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
在映射器的单个输出上运行多个减速器

我正在使用地图缩减实现左连接功能左侧有大约 6 亿条记录右侧有大约 2300 万条记录在映射器中我使用左连接条件中使用的列来创建键并将键值输出从映射器传递到减速器我遇到性能问题因为两个表中的值数量都很高的映射器键很少例如分别
YARN UNHEALTHY 节点

在我们的 YARN 集群已满 80 的情况下我们看到一些纱线节点管理器被标记为不健康在深入研究日志后我发现这是因为数据目录的磁盘空间已满 90 出现以下错误 2015 02 21 08 33 51 590 INFO org apach
将数据从 oracle 移动到 HDFS，处理并从 HDFS 移动到 Teradata

我的要求是将数据从 Oracle 移至 HDFS 处理HDFS上的数据将处理后的数据移至 Teradata 还需要每 15 分钟执行一次整个处理源数据量可能接近50GB 处理后的数据也可能相同在网上搜索了很多之后我发现 PRARO

随机推荐

mongodb的c++接口的说明

mongodb的c 接口的说明作者 habadog 日期 2011 年 08 月 02 日发表评论 3 查看评论 mongodb c 接口说明说明 IN表示输入参数 OUT表示输出参数 1 构造函数 DBClientConnectio
MySQL 逗号分隔，字符串拆分（横转竖）

文章目录一含分隔符的字符串拆分 1 数字拆分 2 字段拆分也就是行转列二涉及函数 1 字符串拆分 SUBSTRING INDEX str delim count 2 替换函数 replace str from str to str
node（npm）配置vue时出现 vue不是内部或外部命令！！！！！！

网上找了很多资料基本是说对了的主要是环境问题 path 解决办法用Everything这个软件搜索vue cmd的位置搜索到这个批处理文件后把这个文件的路径加入Path中就行了重新启动cmd执行 vue 看到下面的就说明 path
生产注意事项

目录 1 可用性 2 兼容性特性 3 运行时限制 4 OPLOG大小限制 5 WiredTiger缓存 6 事务和安全性 7 分片配置限制 8 分片集群和仲裁器 9 三成员主次仲裁器架构 10 获取锁 11 待处理的DDL操作和事务 12
COMS原理及门电路设计

目录 1 N P MOS管的物理结构图 2 N P MOS管的工作原理 3 N P MOS管的抽象模型 4 典型门电路设计 1 cmos反相器设计 2 coms与非门与或非门设计 3 与或非门或与非门设计 4 异或同或设计 5 设计方法
Retroft各个版本的jar包和源码下载地址

Retrofit各个版本下载 download jar包下载 http 101 96 8 155 central maven org maven2 com squareup retrofit2 retrofit 2 5 0 retrofit
springboot+canal+mysql+redis缓存双写一致性

canal官网地址 https github com alibaba canal wiki QuickStart 基本上按照官网的步骤来就行准备首先服务器上要安装好jdk 因为canal运行需要jdk 同时把canal对应的端口在服务中
Android ADB Connection Refused(连接被拒绝)

文章目录小结问题解决参考小结在对Android进行调试时出现Android ADB Connection Refused 连接被拒绝的错误进行了解决问题在对Android进行调试时出现Android ADB Conn
Vue：描述Vue的生命周期以及相关面试题

Vue的生命周期 Vue实例从创建到销毁的过程即开始创建初始化数据编译模板挂载DOM 渲染更新渲染卸载等一系列过程 Vue生命周期图示转载 Vue生命周期钩子即指生命周期函数事件 Vue生命周期有四个阶段八个过程 cre
作用域-闭包-原型链-例子理解
Springboot @Value注解的场景用法以及可能遇到的问题

Value注解可以通过和等2中方式使用其作用通常如下 Value 表示SpEl表达式通常用来获取bean的属性或者调用bean的某个方法当然还有可以直接表示常量用 Value 注解一般从配置文件读取属性 1 非配置文件注入 1
vagrant 虚拟机扩容磁盘

vagrant 虚拟机扩容磁盘修改配置安装插件存储扩容修改配置参考博客 https blog csdn net marina 1 article details 122238721 vagrant 版本 PS D vagrant
TCP客户端非阻塞connect，EPOLL异步响应

废话不多说直接上代码下面展示一些内联代码片 include
配置固定IP地址

问题为本机配置固定的网络地址 IP地址 192 168 8 128 子网掩码 255 255 255 0 关闭NetworkManager服务禁止开机自启重启network服务查看配置方案默认的网卡配置文件路径 etc sysc
【MySQL锁篇】一、MySQL当中有哪些锁

本文为博主对于小林coding 网站的学习笔记详情请参考原网站目录全局锁全局锁的使用全局锁的应用场景全局锁的缺点比较高效的备份方式表级锁表锁元数据锁 MDL MDL锁的设计初衷 MDL锁的工作场景 MDL锁是在什么时
华为OD机试 - 勾股数元组（Java)

题目描述如果3个正整数 a b c 满足a 2 b 2 c 2的关系则称 a b c 为勾股数著名的勾三股四弦五为了探索勾股数的规律我们定义如果勾股数 a b c 之间两两互质即a与b a与c b与c之间均互质没有公约数则其
【程序开发经验分享2024】计算机毕业设计吊打导师Python+Spark知识图谱课程推荐系统课程预测系统 mooc慕课课程爬虫课程大数据课程数据分析大屏大数据毕业设计大数据毕设

开发技术前端 vue js 后端 springboot mybatis plus 数据库 mysql neo4j 算法机器学习深度学习协同过滤算法基于用户基于物品全部实现神经网络混合CF推荐算法 MLP深度学习算法 SVD深度
【开源项目分享】GitHub中文排行榜 - 帮助你发现高分优秀中文项目-Java

榜单设立目的 GitHub中文排行榜帮助你发现高分优秀中文项目各位开发者伙伴可以更高效地吸收国人的优秀经验成果中文项目只能满足阶段性的需求想要有进一步提升还请多花时间学习高分神级英文项目榜单设立范围设立1个总榜所有语言项目
jenkins学习笔记第十篇下载Allure插件生成完美报告

创建MAVEN项目指定Maven仓库指定分支指定check out路径构建执行生成HTMLReport 生成报告这里附加上自定义实现的监听类 public class ZTestReport implements IReport
Hadoop2.6（新版本）----MapReduce工作原理

最近在研究Hadoop 发现网上的一些关于Hadoop的资料都是以前的1 X版本的包括MapReduce的工作原理都是以前的一些过时了的东西所以自己重新整理了一些新2 X版本的MapReduce的工作原理下面我画了一张图便于理解M

Hadoop2.6（新版本）----MapReduce工作原理

Hadoop2.6（新版本）----MapReduce工作原理 的相关文章

随机推荐

热门标签

Hadoop2.6（新版本）----MapReduce工作原理的相关文章