大数据hadoop之MapReduce数据处理过程

2023-05-16

流程图与过程详解

MapTask阶段
在这里插入图片描述

既然需要进行数据处理，自然需要我们提供数据，那么首先我们需要提供待处理的文件，可以是一个也可以是多个
在我们(客户端)提交(submit())数据前，客户端会获取数据的信息，根据参数配置，形成任务分配的规划，即计划切片数(默认一个切片大小128M，hadoop老版本是64M)
注：虽然切片的大小是按照128M为一个分界线，但是如果有两个文件需要被切片，那么不论第二的文件多小，都独占一个切片，不需要跟在第一个文件最后一个切片的末尾,如图
然后需要提交切片信息，包含job.split(切片)、wc.jar(本地模式无需提交，集群下需要)、job.xml(配置信息),这些信息
接着Yarn会调用RM(ResourceManager)会创建MrAppmaster(job资源的老大)、NodeManager。其中MrAppmaster会根据split(分片)决定启动MapTask的数量。
开始读取数据，调用InputFormat这个接口去读取，其中默认情况下是采用InputFormat下的TextInputFormat这个具体实现类进行的，特点是每次读取文本数据，是一行一行的去读，当然我们也可以重写TextInputFormat内部的RecordReader()方法，按整个文件去读，看你的需求。
根据RecordReader()方法，每次读取一行则产生一个<k,v>键值对，k是每行起始位置的偏移量，v是这一行的内容：(注意每行结尾的换行符也占一个偏移量)
得到全部行的<k,v>后，将结果返回给Mapper，接下来进行业务逻辑的处理：把每行转化为string、进行切割、封装，再由context.write(k,v)进行写出
context.write(k,v)写出的数据会先传给OutPutCollector(收集器)，在由收集器写到环形缓冲区内(默认大小100M)，环形缓冲区内部顺时针写数据,逆时针写对应的数据的索引，并且每次写到整个缓冲区的80%容量时，会进行一次溢写，即把内存里的数据写到磁盘上，之后反向写数据和索引(红色剪头所示)，继续接受收集器传来的信息(注：环形缓冲区并不是物理上的环形，而是逻辑上的，它本身是一个队列，数据和索引接头处默认有个分界线)
环形缓冲区索引中的partiton就是对应数据被划分的分区，每个分区在内部进行对数据排序，按照字典顺序的规则，排序方式采用快速排序(为什么不合并分区再排序，而是各个分区排序？因为每个分区是由对应的Reduce进行下一步的处理，现在合并没有意义)由环形缓冲区写到磁盘上的这一过程，称之为序列化，之后针对属于同一个MapTask下的相同分区的内部数据进行归并排序。

Reduce阶段
在所有的MapTask完成以后，由MrAppMaster启动相应数量的ReduceTask，并告知ReduceTask需要处理的数据范围：例如所有分区0的由ReduceTask1处理，分区1的由ReduceTask2处理

在这里插入图片描述
11. 属于同一个ReduceTask下的数据，会进行文件合并，进行归并排序
12. 合并后的数据会根据key值相同的进入到Reducer中，写入到context.write(k,v)，最后通过outputformat(默认是TextOutPutFormat)的RecordWriter写出到一个part里：如下图，<a,1>、<a,1>会先进入Reducer，之后轮到<c,1>
在这里插入图片描述

Shuffle流程

定义
简洁的说就是map方法之后，reduce方法之前的数据处理的过程，又称为洗牌。shuffle包含了对数据的分区、排序、combiner、归并、压缩等过程
在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

大数据hadoop之MapReduce数据处理过程的相关文章

linux解压tar包时并重命名,Linux命令 -- tar解压缩命令

1 tar gz tar bz2 tar xf 2 gzip 3 zip 4 zcat data 43 F 打包名称包含当前时间常用命令 xff1a 1 tar打包压缩打包 xff1a tar czf dir1 tar gz dir1
桌面计算机打开无响应,电脑桌面假死（点击无反应）怎么解决？

不少朋友提到遇到过电脑桌面假死 xff0c 桌面图标怎么点击都没反应 xff0c 最后无奈只能强制关机才能解决问题有什么方法可以不用强制关机就能解决电脑假死问题吗 xff1f 当然有 xff01 还不至一种呢下面就一起来看看三种处理电脑
服务器程序单线程性能,1.3.5　通过多线程按比例提升服务器程序的性能

1 3 5 通过多线程按比例提升服务器程序的性能背景 HTTP运行于TCP之上 xff0c 由TCP使用流控 xff0c 确保发送者产生数据的速度不快于慢的接收者 xff0c 或者确保拥塞的网络能够缓存和处理数据 Ste93 对于处理重的
无线路由器 tftp服务器怎么开启,水星路由器tftp服务器怎么开启

原标题 xff1a 34 水星路由器tftp怎么开启 34 的相关路由器设置教程资料分享来源 xff1a 191路由网这两天有网友问小编水星路由器tftp怎么开启 xff0c 191路由器网小编在网上搜索了一些资料 xff0c 供大家
php服务器内容修改时间,php设置服务器时间

php设置服务器时间内容精选换一换已获取服务器管理员帐号与密码打开CMD运行窗口 xff0c 输入gpedit msc xff0c 打开本地组策略编辑器打开组策略在指定RD会话主机服务器的授权模式下拉列表中选择按用户设置允许RD
python词频统计完整步骤_Python使用Hadoop进行词频统计

今天 xff0c 我们利用python编写一个MapReduce程序 xff0c 程序的目的还是百年不变的计算单词个数 xff0c 也就是WordCunt 所谓mapreduce其实就是先分散计算后综合处理计算结果首先我们来看一下map部
readhat 远程可视化桌面_vnc远程桌面 win10,4款vnc远程桌面 win10

VNC server与VNC viewer支持多种操作系统 xff0c 如Unix系列 xff08 Unix xff0c Linux xff0c Solaris等 xff09 xff0c windows及MacOS xff0c 因此可将VN
Linux基础：xargs命令

简介 xargs可以将输入内容 xff08 通常通过命令行管道传递 xff09 xff0c 转成后续命令的参数 xff0c 通常用途有 xff1a 命令组合 xff1a 尤其是一些命令不支持管道输入 xff0c 比如ls 避免参数过长 xf
jsp是在html里面嵌入哪种代码?_嵌入式工程师的真实现状，月薪8千or年薪40万？...

一名一线企业嵌入式软件工程师的笔者 xff0c 想通过自己的实际经历理性地评论当今嵌入式行业的真实状况创客学院帮你把嵌入式行业发展跟现状分析嵌入式的定义和举例分析目前国内一个普遍被认同的定义是 xff1a 以应用为中心以计算机技术
.cxx文件_CMakeList.txt在大型文件应用（SLAM常用库添加依赖项）

基本的CMakeLists txt并不难 xff0c 主要有生成库生成执行文件链接二者以及找库find package 找头文件include directories 生成执行文件add executable 链接库和执行文件targe
linux系统编程练手项目,精选 22 个 C++ 项目，编程小白练手首选！

C C 43 43 做为元老级的编程语言 xff0c 任时光更迭依旧屹立不倒 xff0c 哪怕现在煊赫一时的AI xff0c 其底层也是用其编写 linux 那么做为新手该如何快速上手 C 43 43 呢 xff1f 固然是敲代码啊 xff
cipher解密失败_Flask框架实现的前端RSA加密与后端Python解密功能详解！

本文实例讲述了Flask框架实现的前端RSA加密与后端Python解密功能分享给大家供大家参考 xff0c 具体如下 xff1a 前言在使用 Flask 开发用户登录API的时候 xff0c 我之前都是明文传输 username 和 p
关于树莓派使用Github涉及ssh的问题

关于树莓派使用Github涉及ssh的问题之前用树莓派装了一个Python控制的小车 xff0c 打算把代码发到GitHub上 xff0c 之前都是用笔记本编写代码scp到树莓派上跑程序的 xff0c 没试过树莓派git命令 xff0c
linux创建pc目录,linux中mkdir创建目录命令使用说明

1 xff0e 命令格式 xff1a mkdir 选项目录 2 xff0e 命令功能 xff1a 通过 mkdir 命令可以实现在指定位置创建以 DirName 指定的文件名命名的文件夹或目录要创建文件夹或目录的用户必须对所创建的文件
普中51控制火焰传感器_基于普中实验板 51单片机 led点阵贪吃蛇

主程序 xff1a include include include 34 ds1302 h 34 define uchar unsigned char define uint unsigned int define max length 6
arm 大端还是小端_C｜大端、小端字节序各自优势及判断

我们知道 xff1a 数据 xff1a 高位低位 xff0c 如0x04030201 xff0c 04是高位 xff0c 01是低内存 xff1a 低地址高地址 xff0c 如0x00000000 0xFFFFFFFF 另外 xff0
相机径向畸变和切向畸变_畸变模型

径向畸变切向畸变理想的针孔成像模型 xff0c 物和像满足相似三角形的关系实际上由于相机光学系统制造工艺的误差 xff0c 实际成像与理想成像存在几何失真 xff0c 称为畸变根据Brown畸变模型 xff0c 畸变主要分为径向畸变和
二、传感器 Modbus-RTU 通信协议

水文传感器通信协议传感器宜采用 RS 485 422 RS 232C SDI 12 等通用接口标准 xff1b 通信协议宜采用 Modbus RTU协议和 SDI 12 通信协议通信速率和字节帧结构通信波特率宜采用1200bps xf
linux桌面lxde 安装_Ubuntu 18.04下安装Lxde轻量桌面系统和VNC服务器

一更新最新的软件库 root 64 itkylin com apt get update 二安装lxde轻量桌面和tightvnc服务端 root 64 itkylin com apt get install xorg lxde cor
docker 删除_Docker删除镜像和容器

当一个host中镜像和容器较多 xff0c 需要重置时可选择删除其中部分或全部的镜像和容器那么你就需要下面的操作了 1 删除容器 1 首先需要停止所有的容器 docker stop docker ps a q 2 删除所有的容器只删除单

随机推荐

python用turtle画弧线函数_python绘图之turtle库函数的用法

Turtle库是Python语言中一个很流行的绘制图像的函数库 xff0c 想象一个小乌龟 xff0c 在一个横轴为x 纵轴为y的坐标系原点 xff0c 0 0 位置开始 xff0c 它根据一组函数指令的控制 xff0c 在这个平面坐标系中
爬虫学得好监狱进的早_比Python更狠毒的一种爬虫！

爬虫 xff1a 一段自动抓取互联网信息的程序 xff0c 从互联网抓取对我们有价值的信息 xff01 说起爬虫 xff0c 可能你首先想起的就是Python xff0c 因为Python在爬虫方面是出了名的但是希望你不要被误导 xff0
gsea富集分析结果怎么看_TCGA单基因泛癌分析：富集分析结果答疑

前段时间我们推出了TCGA单基因泛癌分析 xff0c 其中GO xff0c KEGG和GSEA富集分析我们是使用clusterprofiler包做的出的图有气泡图 xff0c 条形图 xff0c 山峦图波浪图和circle图下面总结一
人工智能的三层基本架构_几种软件架构

几种软件架构一 xff0e 阿里云大数据架构二 xff0e 今日头条推荐算法架构推荐系统 xff0c 如果用形式化的方式去描述实际上是拟合一个用户对内容满意度的函数 xff0c 这个函数需要输入三个维度的变量第一个维度是内容头条现
java复制arraylist_java - 如何将一个ArrayList的内容复制到另一个？

java 如何将一个ArrayList的内容复制到另一个 xff1f 我有一些数据结构 xff0c 我想使用一个作为临时 xff0c 另一个不是临时的 ArrayList myObject 61 new ArrayList ArrayLis
嵌入式linux可以跑算法嘛,嵌入式linux实验报告-三种排序算法的在linux和arm上执行速度比较.doc...

嵌入式linux实验报告三种排序算法的在linux和arm上执行速度比较嵌入式linux设计实验报告项目概要名称 xff1a 三种排序算法的在linux和arm上执行速度比较具体内容和实验要求 xff1a 三种或三种以上排序算法在
exe文件上传服务器,exe文件

EXE File英文全名executable file xff0c 译作可执行文件 xff0c 可移植可执行 PE 文件格式的文件 xff0c 它可以加载到内存中 xff0c 并由操作系统加载程序执行 xff0c 是可在操作系统存储空间中浮
微信王者荣耀服务器未响应,王者荣耀：为什么微信和QQ数据不通，官方给出回答，竟是因为这个...

原标题 xff1a 王者荣耀 xff1a 为什么微信和QQ数据不通 xff0c 官方给出回答 xff0c 竟是因为这个大家好 xff0c 我是十三郎 xff0c 今天是PLUS版的十三郎 xff0c 因为我今天在深夜作战 xff01 没得
压缩和解压缩工具介绍篇

在传输文件的过程中 xff0c 传输的文件大小和传输的速度决定传输的时间当文件特别大的时候 xff0c 将文件打包压缩可以在一定程度上可以缓解传输的压力 xff0c 于是压缩和解压缩工具就应运而生了 xff0c 而压缩工具效果即压缩比取决
剑侠情缘二服务器维护要多久,玩剑侠2就必须看的帖子，尤其是新手

此攻略只适合平民玩家 xff0c 土豪请直接跳过 xff01 既然玩游戏就要玩得爽 xff0c 我的宗旨就是不求最爽 xff0c 但求更爽 xff01 虽然我们是穷人 xff0c 但是我们一样需要娱乐 xff01 4月26日将开新区 xf
linux命令行 teamview,linux centos 命令行安装 teamviewer 启动停止

1 下载teamview centos版本 xff0c 本人喜欢tar gz版本 xff0c 但是官网只有rpm版本 xff0c 附件中即为官网下载的teamview11 下载后 xff0c 放到你的目录下 xff0c 我的是在 mnt s
计算机cpu型号有,Intel九代CPU型号都有哪些？盘点目前已知的Intel处理器型号大全...

Intel发布第九代CPU后 xff0c 处理器产品型号不少 xff0c 不过目前已经上市的型号并不多 xff0c 主要是一些中高端产品如果你还是觉得很乱的话 xff0c 今天小编为大家全面盘点下Intel九代CPU型号都有哪些 xff0
controller调用另一个controller中的方法获取返回值_Spring 中经典的 9 种设计模式，打死也要记住啊！

1 简单工厂非23种设计模式中的一种 2 工厂方法3 单例模式4 适配器模式5 装饰器模式6 代理模式7 观察者模式8 策略模式9 模版方法模式 Spring中涉及的设计模式总结 1 简单工厂非23种设计模式中的一种实现方式 xff1
iptables 无法上网_centos6.8安装squid代理服务器server及client配置代理上网

问题 xff1a 局域网内目前有2台服务器 xff0c 一台可以上网 xff0c 另一台无法上网 xff0c 目前解决此问题通过代理解决 xff1b 1 系统环境操作系统 xff1a CentOS release 6 8 Final Sq
python求雅可比矩阵_在Python中计算神经网络的雅可比矩阵

通常 xff0c 神经网络是一个多变量 xff0c 矢量值函数 xff0c 如下所示 xff1a 函数f有一些参数神经网络的权重它将一个N维向量x 即猫图片的N像素映射到一个m维矢量例如 xff0c x属于M个不同类别中的每个类别的
用python实现归并排序算法

归并排序是一种常见的排序算法 xff0c 它采用分治策略 xff0c 将待排序的序列分成若干个子序列 xff0c 每个子序列都是有序的 xff0c 然后再将这些有序的子序列合并成一个有序的序列具体来说 xff0c 归并排序的过程可以描述为
python 实现网站_用web.py实现python网站版hello world网页

github源码安装浏览器打开https github com webpy webpy xff0c 下载源码zip格式 xff0c 解压出来 cmd打开 xff0c cd到解压目录 xff0c 输入 python setup py ins
如何用python做无限弹窗_Python中无限循环需要什么条件

无限循环如果条件判断语句永远为 true xff0c 循环将会无限的执行下去如下实例 usr bin python coding UTF 8 var 61 1 while var 61 61 1 该条件永远为true xff0c 循环将
php获取本月本周上周时间戳

1 获取本月开始到结束的时间戳 echo strtotime date 39 Y m d 0 0 0 39 mktime 0 0 0 date 39 n 39 1 date 39 Y 39 echo strtotime date 39 Y
大数据hadoop之MapReduce数据处理过程

流程图与过程详解 MapTask阶段既然需要进行数据处理 xff0c 自然需要我们提供数据 xff0c 那么首先我们需要提供待处理的文件 xff0c 可以是一个也可以是多个在我们客户端提交 submit 数据前 xff0c 客户端会

大数据hadoop之MapReduce数据处理过程

流程图与过程详解

Shuffle流程

大数据hadoop之MapReduce数据处理过程 的相关文章

随机推荐

热门标签

大数据hadoop之MapReduce数据处理过程的相关文章