MapReduce过程中setPartitionerClass、setSortComparatorClass和setGroupingComparatorClass三者关系

2023-11-02

Map首先将输出写到环形缓存当中，开始spill过程：
job.setPartitionerClass(PartitionClass.class);
【按key分区】map阶段最后调用。对key取hash值(或其它处理)，指定进入哪一个reduce

job.setSortComparatorClass(SortComparator.class);
【按key排序】每个分区内，对键或键的部分进行排序，保证分区内局部有序；

job.setGroupingComparatorClass(Grouptail.class);
【按key分组】构造一个key对应的value迭代器。同一分区中满足同组条件（可以是不同的key）的进入同一个Interator，执行一次reduce方法；

partiton是为了完成在shuffle阶段使用哪个reducetask。groupComparator是为了在一个reducetask下区分key的聚合。
举个栗子，在map阶段输出结果为1，一，2，二。设置reducetask数量为2，名字为r1，r2。
此时想把1，一，交给r1处理。2，二，交给r2处理。就需要自定义partiton通过返回值来完成。
但是1，一虽然进入了r1。但是r1，并不认为两者是相同的，也就是在输出的结果上并没有放在一行，而是两行。
如果想让输出结果放到一行，就需要重新定义groupComparator组件。
 ps：一个reducetask会输出一个文件。一个reduce阶段的key对应文件中的一行

https://blog.csdn.net/qq_20641565/article/details/65448582

进入同一个reduce的key是按照顺序排好的，该类使得：
如果连续（注意，一定连续）的两条或多条记录满足同组（即compare方法返回0）的条件，
即使key不相同，他们的value也会进入同一个values,执行一个reduce方法。
相反，如果原来key相同，但是并不满足同组的条件，他们的value也不会进入一个values。
最后返回的key是：满足这些条件的一组key中排在最后的那个。

详细讲解
尚硅谷
 详细讲解MapReduce过程

在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

大数据

MapReduce过程中setPartitionerClass、setSortComparatorClass和setGroupingComparatorClass三者关系的相关文章

对角遍历矩阵算法c语言,C Tricks（十七）—— 对角线元素的屏蔽、二维数组（矩阵）的遍历...

1 对角线元素的屏蔽使用 if continue 实现对对角线元素的屏蔽 for u in range n for v in range n if u v continue 2 矩阵二维数组的遍历方法遍历方法取决于最内层的操作比如
湖北医学院

http job hust edu cn show article htm id 25736 华中科技大学2014届医科毕业生专场招聘会邀请函尊敬的用人单位负责人您好感谢贵单位多年来对我校就业工作的大力支持目前 2014届毕业

随机推荐

【技术碎片】基于指数扩散二分搜索的重名文件重命名后缀

目录前言 linearSearch exponentialDiffusionBinarySearch 实现 ExponentialDiffusionBinarySearch java 运行前言一般我们在重命名文件时可以发现是这种结构
cppcheck linux安装和使用

环境 centos7 下载cppcheck地址官网 ccpcheck版本 cppcheck 2 6 上传到响应的目录执行编译 unzip cppcheck 2 6 zip cd cppcheck 2 6 make 代码检查命令 cppch
jenkins 插件安装缓慢

两条命令解决 cd 你的Jenkins工作目录 updates sed i s http updates jenkins ci org download https mirrors tuna tsinghua edu cn jenkins
maskrcnn掩膜拟合效果不好是什么原因引起的，分类倒是很准确

可能是因为训练数据中目标物体的掩膜标记不够精确或者数量不足导致模型在预测掩膜时出现误差或者是因为模型没有足够的参数在处理复杂的图像时表现不佳
cacheput注解用法_spring cache常用注解使用

1 CacheConfig 主要用于配置该类中会用到的一些共用的缓存配置示例 CacheConfig cacheNames users public interface UserService 配置了该数据访问对象中返回的内容将存储于名为
SpringBoot + MyBatis 结合 MVC框架设计第1关：项目整合 - SpringBoot + MyBatis

目录任务描述相关知识使用MyBatis Spring Boot Starter进行整合SpringBoot MyBatis 使用SpringBoot MyBatis编写一个查询用户信息的接口编程要求测试说明参考代码任务描述本
PCL 4PCS算法实现点云配准

4PCS算法一算法原理 1 算法流程 2 参考文献二代码实现 1 主要参数 2 完整代码三结果展示四相关链接一算法原理 1 算法流程 4PCS算法是计算机图形学中一种流行的配准工具给定两个点集 P Q P Q
Android系统运动传感器

转自 https blog csdn net liang123l article details 53992197 Android平台提供了多种感应器让你监控设备的运动传感器的架构因传感器类型而异重力线性加速度旋转矢量重要运动
Windows 10 安装安卓子系统 WSA（Magisk/KernelSU）使用 WSA 工具箱安装 APK

from https blog zhjh top archives XokySA7Rc1pkVvnxAEP5E 前提是系统为 Windows 10 22H2 10 0 19045 2311 或更高版本尽量新步骤使用 WSAPatch
android真机和模拟器(emulator)的判断

最近收到领导需求要判断真机和模拟器先前项目里是有的可能当时能用但现在都不能用了然后 baidu上能够找到的其实都不能用了包括说使用cache来区分cpu架构是哈佛结构还是冯诺伊曼结构来判断的这个其实是最不靠谱的因为硬件结构是会
C语言函数大全-- p 开头的函数

p 开头的函数 1 perror 1 1 函数说明 1 2 演示示例 1 3 运行结果 2 pieslice 2 1 函数说明 2 2 演示示例 2 3 运行结果 3 pow powf powl 3 1 函数说明 3 2 演示示例 3 3
数据结构-冒泡排序,选择排序,插入排序,快速排序,希尔排序,堆排序

冒泡排序冒泡排序的思想从头开始数据两两比较将大的放到后面小的放到前面经过一轮比较后就找到了该序列的最大数且将它放到了最后再循环上述步骤找出第二大的数第三大的数 int maoapo int a int len a为数组的首地址
期货开户顺大市而逆小市

期货的行情有人愿意以更高的价来买入就会涨有人买意以更低的价格卖出就会跌现货市场上一个馒头5角钱的时候在期货市场上如果有很多人争着买这个馒头可能会涨到5块或者50块也是可能的在这个馒头5块钱一个的时候你感觉这个馒头太
ShiroFilter设计原理与实现

Shiro提供了与Web集成的支持其通过一个ShiroFilter入口来拦截需要安全控制的URL 然后进行相应的控制 ShiroFilter类似于如Strut2 SpringMVC这种web框架的前端控制器其是安全控制的入口点其负责读
Postgre 还原导入sql文件

postgresql 如何导入sql文件打开sql shell 执行如下操作密码不显示直接输入完成后按回车键 i C Users fulong Desktop trest3 sql 注意路径不要使用不支持这种写法
Linux Kernel SMP (Symmetric Multi-Processors) 開機流程解析 Part(3) Linux 多核心啟動流程從rest_init到kernel_init與CPU

http loda hala01 com 2011 08 android E7 AD 86 E8 A8 98 linux kernel smp symmetric multi processors E9 96 8B E6 A9 9F E6
Java-IO流篇-DataOutputStream

DataOutputStream DataOutputStreams是OutputStream的子类是数据输出流此类继承自FillterOutputStream类同时实现DataOutput接口在DataOutput接口定义了一系列
更新k8s证书（续签）

下载 kubeadm x86 md5 7951a9348655b4f508b84ced66fcf371kubeadm arm md5 b11c4ce93722b07f96c2acdeaaa07e74 cd etc kubernetes cp
iframe的基本介绍与使用

一介绍 iframe 内嵌框架是 HTML 中一种用于将一个网页嵌入到另一个网页中的标签它可以在一个页面中显示来自其他页面的内容在网页中使用标签可以将一个网页嵌套在另一个网页中实现网页间的互联互通二使用标签的基本用法如下
MapReduce过程中setPartitionerClass、setSortComparatorClass和setGroupingComparatorClass三者关系

Map首先将输出写到环形缓存当中开始spill过程 job setPartitionerClass PartitionClass class 按key分区 map阶段最后调用对key取hash值或其它处理指定进入哪一个reduce

MapReduce过程中setPartitionerClass、setSortComparatorClass和setGroupingComparatorClass三者关系

MapReduce过程中setPartitionerClass、setSortComparatorClass和setGroupingComparatorClass三者关系 的相关文章

随机推荐

热门标签

MapReduce过程中setPartitionerClass、setSortComparatorClass和setGroupingComparatorClass三者关系的相关文章