Hadoop (四) ——MapReduce 的原理+实现

2023-05-16

MapReduce简介

MapReduce是一种编程模型,用于大规模数据集的并行运算。概念"Map(映射)“和"Reduce(归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。

mapreduce是hadoop中一个批量计算的框架,在整个mapreduce作业的过程中,包括数据的输入,数据的处理,这些部分,而其中数据的处理部分就要map,reduce,combiner等操作组成。在一个mapreduce的作业中必定会涉及到如下一些组件:

1、客户端,提交mapreduce作业
2、yarn资源管理器,负责集群上计算资源的协调
3、yarn节点管理器,负责启动和监控集群中机器上的计算容器(container)
4、mapreduce的application master,负责协调运行mapreduce的作业
5、hdfs,分布式文件系统,负责与其他实体共享作业文件

为什么需要mapreduce

(1) 海量数据在单机上处理因为硬件资源限制,无法胜任
(2)而一旦将单机版程序扩展到集群来分布式运行,将极大增加程序的复杂度和开发难度
(3) 引入 MapReduce框架后,开发人员可以将绝大部分工作集中在业务逻辑的开发上,而将 分布式计算中的复杂性交由框架来处理

在这里插入图片描述

可见在程序由单机版扩成分布式版时,会引入大量的复杂工作。为了提高开发效率,可以将 分布式程序中的公共功能封装成框架,让开发人员可以将精力集中于业务逻辑。
Hadoop 当中的 MapReduce 就是这样的一个分布式程序运算框架,它把大量分布式程序都会涉及的到的内容都封装进了,让用户只用专注自己的业务逻辑代码的开发。 它对应以上问题的整体结构如下:
在这里插入图片描述
mapreduce的工作原理

在这里插入图片描述
在这里插入图片描述
其主要流程有以下几个步骤组成:

作业提交

第一步: 客户端通过调用job.waitForCompletion()方法向整个集群提交MapReduces任务; 第二步:
客户端通过getNewApplication方法向ResouceManager申请新应用,成功的话,ResourceManager会返回一个ApplicationId;
第三步:客户端根据ApplicationId在HDFS上创建一个文件夹用于复制作业需要的资源文件,包括jar程序包,配置文件,以及输入split;
第四步:客户端通过submitApplications方法向ResourceManager提交作业;

作业初始化:

第五步:ResourceManager在收到submitApplications请求后,会将该请求发送给scheduler(调度器),调度器会分配一个container,用来运行MRAppMaster应用程序,该应用管理器由所在的nodeManager负责监控;
第六步: MRAppMaster会对作业进行初始化,创建一些bookkeeping对象来监控作业的进度,获得任务进度和完成报告
第七步:MRAppMaster会从HDFS上获取输入split,然后为每个split分配创建一个map任务;

资源分配

第八步:
MRAppMaster会根据Map和Reduce任务向ResorceManager申请container资源来运行这些任务;这些请求是通过心跳传输的,请求信息中包含Map和Reduce运行的数据块位置信息(如host和rack),资源调度器收到请求后,会尽量将Map/Reduce任务分配到存储数据块的节点或者分配到存有输入split节点的机架上的其他节点;

任务执行

第九步:MRAppMaster会在资源调度器分配container后,联系对应的NodeManager启动container,运行一个YarnChlid的java应用程序;
第十步:YarnChild应用程序会从HDFS上获取jar文件,作业配置以及相应的资源文件; 第十一步:
YarnChild通过.jar程序运行对应的Map或者Reduce任务;

任务执行情况上报:

Yarn将任务的执行情况和状态(包括container)上报给MRAppMaster,客户端定时刷新任务状态;

作业完成

作业完成后,会将作业状态进行清理包括MRAppMaster和Container,以及OutputCommiter上的作业清理方法也将会被调用,最后作业的历史信息将会被存储以备查询;

部署过程

在ser1上

1.编写配置文件
[ha@server1 ~]$ vim hadoop/etc/hadoop/mapred-site.xml 


<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.application.classpath</name>
        <value>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*</value>
    </property>
</configuration>

2.定义变量

[ha@server1 ~]$ vim hadoop/etc/hadoop/hadoop-env.sh 

export HADOOP_MAPRED_HOME=/home/yxx/hadoop

3.设置白名单
[ha@server1 ~]$ vim hadoop/etc/hadoop/yarn-site.xml 

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
</configuration>

启动
在这里插入图片描述

这里报错是没有免密

[ha@server1 ~]$ hadoop/sbin/start-yarn.sh 
Starting resourcemanager
resourcemanager is running as process 2674.  Stop it first.
Starting nodemanagers
[ha@server1 ~]$ jps
3569 SecondaryNameNode
2674 ResourceManager
3715 Jps
3373 NameNode

实际中,将ResourceManager和nn分开,因为他俩都是cpu密集型的。

在所有的dn中,会打开一个NodeManager

[root@server2 ~]# jps
2577 Jps
2515 DataNode
2366 NodeManager

访问ser1的8088端口
在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop (四) ——MapReduce 的原理+实现 的相关文章

随机推荐

  • typora修改偏好设置不生效/无法修改偏好设置/偏好设置被重置的解决方法

    原因 之前bata版本过期 许多人都尝试修改电脑时间来继续使用 因此对 profile data这个文件的权限设置不正确 步骤 电脑勾选显示隐藏文件 C Users 电脑名 AppData Roaming Typora 选择时间排序 找到该
  • 单片机控制小车前进转弯

    1 小车前进 实现方法 xff1a 四个电机同时向前 xff08 小车后退同理 xff09 include lt AT89X51 H gt 定义小车驱动模块输入IO口 sbit IN1 61 P1 0 右1电机 高电平前进 sbit IN2
  • Java线上应用故障排查之一:高CPU占用

    一个应用占用CPU很高 xff0c 除了确实是计算密集型应用之外 xff0c 通常原因都是出现了死循环 xff08 友情提示 xff1a 本博文章欢迎转载 xff0c 但请注明出处 xff1a hankchen xff0c http www
  • 树莓派3B安装win11操作系统-成功版

    三个注意事项 事前准备永恒的决心成功 61 失败 事前准备 1 树莓派3B主板及电源连接 xff1b 2 HDMI的显示器 xff1b 3 USB的键盘鼠标 xff0c 或者有USB连接器的键盘鼠标 永恒的决心 1 其他安装过程 xff0c
  • 树莓派3B+安装Android 系统

    试水在树莓派3B 43 上安装Android 系统 xff08 完整的安卓 xff0c 非Adroid IOT xff0c 因为还不支持 xff09 xff0c 受到了一个小哥安装成功的鼓舞 xff08 带度盘资源 xff1a https
  • WinDbg 的入门经历

    WinDbg 的入门经历 WinDbg 是一款非常好用的调试工具 xff0c 针对于在win上的程序都有很好的调试效果 xff0c 相信玩逆向工程 Net 开发的同学都很熟悉 起因 在调试UCOS操作系统在windows上的仿真问题遇到的多
  • 目标检测网络中的 bottom-up 和 top-down理解

    看目标检测网络方面的论文时 xff0c 出现了一组对比词汇 xff1a bottom up和top down xff0c 查了一些资料 xff0c 结合个人理解 xff0c 得到的看法是 xff1a top down 顾名思义是自上而下进行
  • 2021.08.26学习内容 Win10+GeForce GTX1650安装NVIDIA显卡驱动及CUDA11.4+cuDNN8.2

    之前主要使用Ubuntu系统 xff0c 但是个人笔记本更多使用windows 为了方便跑一些pytorch的小代码 xff0c 所以想在windows配置一下相关环境 xff0c 达到调用GPU运算的目的 记录也是为了自己以后有安装需求少
  • vscode调试webpack-dev-server项目

    先上结果 vscode下载debugger for chrome 插件 创建launch json 添加的时候选择Chrome Launch会自动生成chrome调试模板 xff0c 主要是要加上 34 preLaunchTask 34 3
  • OpenNetworkLinux:i2c-gpio.c源码学习笔记

    OpenNetworkLinux xff1a i2c gpio c源码学习笔记 i2c gpio的init和exit i2c驱动需要首先在平台驱动上进行注册 xff0c 方可提供自身的总线供适配器进行注册 xff0c 注册流程类似于一个内核
  • 每天一个Lodash源码解析

    每天一个Lodash源码解析 chunk 方法介绍自我实现源码分析代码对比知识点补充浮点数转化为浮点数数组创建方法区别js中切割数组方法 slice 方法介绍自我实现源码分析代码对比知识点补充 96 96 gt gt gt 96 96 移位
  • conda的常用操作

    1 查看conda版本 2 更改安装第三方库的源 将国外的源改为清华镜像源 cmd窗口依次输入 xff1a conda config add channels https mirrors tuna tsinghua edu cn anaco
  • 云技术

    什么是 云 与云技术 xff1f 云技术是在分布式计算技术 网格计算基数基础上发展起来的一种计算技术 云技术基于资源虚拟化的方式 xff0c 为用户提供方便快捷的服务 xff0c 可以实现计算与存储的分布式与并行处理 云技术为其他信息技术
  • 什么是上转型对象及其基本特征

    5 12 什么是上转型对象及其基本特征 xff1f 上转型对象 子类对象赋值给父类变量 例如 xff1a package com wangxing test1 父类 public class Person public void testP
  • 【树莓派入门系列】4 树莓派安装测试torch与torchvision

    树莓派运行YOLOV5项目 安装测试torch amp torchvision 项目目录 点击跳转 0 首页 1 前期准备工作 2 配置树莓派系统 3 安装测试opencv 4 安装测试torch amp torchvision 5 测试y
  • javascript中in和includes的区别

    in的用法 遍历对象 span class token keyword let span names span class token operator 61 span span class token punctuation span n
  • centos安装java环境

    方式一 xff1a 安装java环境 1 先查看本地是否自带java环境 xff1a yum list installed grep java 2 卸载自带的java xff08 输入su xff0c 输入root超级管理员的密码 xff0
  • 计算机网络(五) 网络层(中)

    网络层 xff08 中 xff09 3 划分子网和构造超网3 1划分子网3 2使用子网时分组的转发3 3无分类编址CIDR xff08 构造超网 xff09 4 网际控制报文协议 xff08 ICMP xff09 4 1 ICMP报文的种类
  • 【软件工程学习】软件工程概论

    一 软件工程基础 软件是什么 xff1f xff08 1 xff09 软件独立于硬件 早期软件是作为计算机硬件的零件来开发的 xff0c 40年代中后期和50年代早期时 xff0c 为了利用计算机硬件进行研究 xff0c 使用针对专门的硬件
  • Hadoop (四) ——MapReduce 的原理+实现

    MapReduce简介 MapReduce是一种编程模型 xff0c 用于大规模数据集的并行运算 概念 34 Map xff08 映射 xff09 和 34 Reduce xff08 归约 xff09 xff0c 是它们的主要思想 xff0