利用MapReduce进行二次排序--附例子

2023-05-16

首先先来明确几个概念：
1.分区-partition
1）分区（partition）：
默认采取散列值进行分区，但此方法容易造成 “ 数据倾斜 ” （大部分数据分到同一个reducer中，影响运行效率）；
所以需要自定义partition;
2)分区概念：*** 指定key/value被分配到哪个reducer上
  哪个key到哪个Reducer的分配过程，是由Partitioner规定的；
  （重写：getPartition(Text key, Text value, int numPartitions)）
3）如何自定义partition？？
只要自定义一个类，并且继承Partitioner类，重写其getPartition方法就好了，在使用的时候通过调用Job的 setPartitionerClass  指定一下即可。

4)系统默认的分区partition
  系统缺省的Partitioner是HashPartitioner，它以key的Hash值对Reducer的数目取模，得到对应的Reducer。这样就保证如果有相同的key值，肯定被分配到同一个reducre上
5）执行过程
    Map的结果，会通过partition分发到Reducer上。如果设置了Combiner，Map的结果会先送到Combiner进行合并，再 partition,再将合并后数据发送给Reducer。

2.分组grouping
1)概念：
主要定义哪些key可以放置在一组；
2）自定义分组排序
定义实现一个WritableComparator，重写compare(),  设置比较策略；
还需要声明：自定义分组的类
    job.setGroupingComparatorClass(SencondarySortGroupComparator.class);//自定义分组
3)分组之后的组内排序--（实现优化）
也就是自定义RawComparator类，系统默认；
4)  如何自定义组内的排序呢？如下：
继承WritableComparator，重写compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2)方法；
还需要声明：
   job.setSortComparatorClass(SencondarySortComparator.class);//自定义组内排序

先编写一个案例，加深二次排序的映像：
所谓二次排序，对第1个字段相同的数据，使用第2个字段进行排序。
举个例子，电商平台记录了每一用户的每一笔订单的订单金额，现在要求属于同一个用户的所有订单金额作排序，
并且输出的用户名也要排序。
       账户(account)   订单金额(Cost)
hadoop@apache 200
hive@apache 550
yarn@apache 580
hive@apache 159
hadoop@apache 300
hive@apache 258
hadoop@apache 300

二次排序后的结果如下：
           账户(account)   订单金额(Cost)
           hadoop@apache 200
           hadoop@apache 300
           hadoop@apache 300
           hive@apache 159
           hive@apache 258
           hive@apache 550
           yarn@apache 580
代码部分：
a.实现自定义Writable类

public class AccountBean  implements WritableComparable<AccountBean>{
	private Text accout;
	private IntWritable cost;
	public AccountBean() {
		setAccout(new Text());
		setCost(new IntWritable());
	}
	public AccountBean(Text accout, IntWritable cost) {
		this.accout = accout;
		this.cost = cost;
	}
	@Override
	public void write(DataOutput out) throws IOException {
		accout.write(out);
		cost.write(out);
	}
	@Override
	public void readFields(DataInput in) throws IOException {
		accout.readFields(in);
		cost.readFields(in);
	}
	@Override
	public int compareTo(AccountBean o) {
		int tmp = accout.compareTo(o.accout);
		if(tmp ==0){
			return cost.compareTo(o.cost);
		}
		return tmp;
	}
	public Text getAccout() {
		return accout;
	}

	public void setAccout(Text accout) {
		this.accout = accout;
	}

	public IntWritable getCost() {
		return cost;
	}

	public void setCost(IntWritable cost) {
		this.cost = cost;
	} 
    @Override
    public String toString() {
	return accout + "\t" + cost;
    }
}

b.自定义partition：按account进行分区：--根据key或value及reduce的数量来决定当前的
这对输出数据最终应该交由哪个reduce task处理

  public class SencondarySortPartition extends Partitioner<AccountBean, NullWritable> {
            @Override
            public int getPartition(AccountBean key, NullWritable value,int numPartitions) {
                return (key.getAccout().hashCode() & Integer.MAX_VALUE) % numPartitions;
            }
  }

c.自定义分组比较器：按account进行分组：--key相同的在一个组内；最后执行是组的并行性

public class SencondarySortGroupComparator extends WritableComparator {
			public SencondarySortGroupComparator() {
				super(AccountBean.class,true);
			}
			
			@Override
			public int compare(WritableComparable a, WritableComparable b) {
				AccountBean acc1 = (AccountBean)a;
				AccountBean acc2 = (AccountBean)b;
				return acc1.getAccout().compareTo(acc2.getAccout());//账号相同的在一个组
			}
	}

d.自定义RawComparator类：--主要是实现在组内的排序（有利于优化）,可省略！！!

public class SencondarySortComparator extends WritableComparator {
			private static final IntWritable.Comparator INTWRITABLE_COMPARATOR = new IntWritable.Comparator();

			public SencondarySortComparator() {
				super(AccountBean.class);
			}
			@Override
			public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2) {
				try {
					int firstL1 = WritableUtils.decodeVIntSize(b1[s1])+ readVInt(b1, s1);
					int firstL2 = WritableUtils.decodeVIntSize(b2[s2])+ readVInt(b2, s2);
					int cmp = INTWRITABLE_COMPARATOR.compare(b1, s1, firstL1, b2, s2, firstL2);
					if (cmp != 0) {
						return cmp;
					}
					return INTWRITABLE_COMPARATOR.compare(b1, s1 + firstL1, l1 - firstL1, b2,s2 + firstL2, l2 - firstL2);
				} catch (IOException e) {
					throw new IllegalArgumentException(e);
				}
			}

		//	static {
		//		WritableComparator.define(AccountBean.class,new SencondarySortComparator());
		//	}
		}

e.编写Mapper

public class SencondarySortMapper extends Mapper<LongWritable, Text, AccountBean, NullWritable> {
			private AccountBean acc = new AccountBean();
			@Override
			protected void map(LongWritable key, Text value,Context context)
					throws IOException, InterruptedException {
				StringTokenizer st = new StringTokenizer(value.toString());
				while (st.hasMoreTokens()) {
					acc.setAccout(new Text(st.nextToken()));
					acc.setCost(new IntWritable(Integer.parseInt(st.nextToken())));
				}
				context.write(acc ,NullWritable.get());
			}
		}

f.编写Reducer

 public class SencondarySortReducer extends Reducer<AccountBean, NullWritable, AccountBean, NullWritable>{
            @Override
            protected void reduce(AccountBean key, Iterable<NullWritable> values,Context context)
                throws IOException, InterruptedException {
            for (NullWritable nullWritable : values) {
                context.write(key, NullWritable.get());
                }
            }
        }

g.编写主类Driver

public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();
		Path outfile = new Path("file:///D:/outtwo1");
		FileSystem fs = outfile.getFileSystem(conf);
		if(fs.exists(outfile)){
			fs.delete(outfile,true);
		}
		Job job = Job.getInstance(conf);
		job.setJarByClass(SencondarySortDriver.class);
		job.setJobName("Sencondary Sort");
		job.setMapperClass(SencondarySortMapper.class);  
		job.setReducerClass(SencondarySortReducer.class);
		
		job.setOutputKeyClass(AccountBean.class);
		job.setOutputValueClass(NullWritable.class);
		//声明自定义分区和分组
		job.setPartitionerClass(SencondarySortPartition.class);
		job.setGroupingComparatorClass(SencondarySortGroupComparator.class);
     //job.setSortComparatorClass(SencondarySortComparator.class);//组内排序需要声明的类

		FileInputFormat.addInputPath(job, new Path("file:///D:/测试数据/二次排序/"));
		FileOutputFormat.setOutputPath(job,outfile);
		System.exit(job.waitForCompletion(true)?0:1);
	}

I. 运行结果

            hadoop@apache          200
            hadoop@apache          300
            hadoop@apache          300
            hive@apache               159
            hive@apache               258
            hive@apache               550
            yarn@apache               580

总结：
理解分区和分组的概念；
分区：指定key/value到哪个Reducer中；
分组：相同的key在一个组group中，执行Reducer Task它会并行处理组，
提高运行效率；要是没有组，它会处理很多个reducer任务；

一个小案例：
分别对map task和reducer task数分别计数，看它们分别执行多少次；
1）无组
runmap
map运行次数=17
runreducer
reducer运行次数=10
2）有组
runmap
map运行次数=17
runreducer
reducer运行次数=3
3）可以看出，分组之后，reducer task数明显减少，有利于提高效率！！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

MapReduce

进行二次排序

利用MapReduce进行二次排序--附例子的相关文章

在 Google App Engine 中使用 mapreduce 的简单反例

我对 GAE 中 MapReduce 支持的当前状态有些困惑根据文档http code google com p appengine mapreduce http code google com p appengine mapreduce
CouchDB 视图：MapReduce 中可以接受多少处理？

我一直在尝试使用 CouchDB 进行 MapReduce 一些示例显示了映射归约函数中可能存在的一些繁重逻辑在一种特殊情况下他们在映射内执行 for 循环在发出您选择的文档之前 MapReduce 是否会在每个可能的文档上运行如果
Cloudera 5.1下作业在LocalJobRunner中保持运行

需要一些快速帮助我们的作业在 MapR 下运行良好但是当我们在 Cloudera 5 1 上启动相同的作业时它继续以本地模式运行我确信这是某种配置问题它是哪个配置设置 14 08 22 12 16 58 INFO mapreduc
Hadoop 中的分割大小与块大小

Hadoop 中的分割大小和块大小之间有什么关系当我读到this http willddy github io 2012 08 25 Hadoop Split and Block html 分割大小必须是块大小的n倍 n是整数并且n gt
线程“主”java.lang.VerifyError 中出现异常：操作数堆栈上的类型错误

在给定 input txt 文件中查找最大温度的 Map Reduce 程序中发生了此错误我写了两栏分别是年份和温度 Exception in thread main java lang VerifyError Bad type on
Hadoop：java.lang.ClassCastException：org.apache.hadoop.io.LongWritable 无法转换为 org.apache.hadoop.io.Text

我的程序看起来像 public class TopKRecord extends Configured implements Tool public static class MapClass extends Mapper
流数据和 Hadoop？（不是 Hadoop 流）

我想使用 MapReduce 方法分析连续的数据流通过 HTTP 访问因此我一直在研究 Apache Hadoop 不幸的是 Hadoop 似乎希望以固定大小的输入文件开始作业而不是在新数据到达时将其传递给消费者事实确实如此还是我
仅使用一个映射器的 Hadoop gzip 输入文件[重复]

这个问题在这里已经有答案了可能的重复为什么 hadoop 不能分割一个大文本文件然后使用 gzip 压缩分割的内容 https stackoverflow com questions 6511255 why cant hadoop s
为什么 Hadoop 中正确的缩减数量是 0.95 或 1.75？

hadoop 文档指出正确的归约次数似乎是 0 95 或 1 75 乘以 mapred tasktracker reduce tasks maximum 0 95 所有的减少都可以立即启动并开始地图完成时传输地图输出用1 75更快节
映射减少计数示例

我的问题是关于mapreduce programming in java 假设我有 WordCount java 示例一个标准mapreduce program 我希望map函数收集一些信息并返回形成如下的reduce函数map
java.lang.IllegalArgumentException：错误的 FS：，预期：hdfs://localhost:9000

我正在尝试实现reduce side join 并使用mapfile reader来查找分布式缓存但在stderr中检查时它没有查找值它显示以下错误 lookupfile文件已经存在于hdfs中并且似乎已正确加载进入缓存如标准输出中
MongoDB：在没有并行性的情况下使用 MapReduce 有什么意义？

Quoting http www mongodb org display DOCS MapReduce MapReduce Parallelism http www mongodb org display DOCS MapReduce Ma
为什么组合器输入记录的数量比映射的输出数量多？

Combiner 在 Mapper 之后 Reducer 之前运行它将接收给定节点上的 Mapper 实例发出的所有数据作为输入然后它将输出发送到Reducers 因此组合器输入的记录应小于映射输出的记录 12 08 29 13 38
Spark scala - 按数组列分组[重复]

这个问题在这里已经有答案了我对 Spark Scala 很陌生感谢你的帮助我有一个数据框 val df Seq a a1 Array x1 x2 a b1 Array x1 a c1 Array x2 c c3 Array x2 a
RavenDB：为什么我会在此多重映射/归约索引中获得字段空值？

受到 Ayende 文章的启发https ayende com blog 89089 ravendb multi maps reduce indexes https ayende com blog 89089 ravendb multi m
运行时异常：java.lang.NoSuchMethodException：tfidf$Reduce.()

如何解决这个问题 tfidf是我的主类为什么运行jar文件后会出现这个错误 java lang RuntimeException java lang NoSuchMethodException tfidf Reduce
Hadoop 推测任务执行

在Google的MapReduce论文中他们有一个备份任务我认为这与Hadoop中的推测任务是一样的推测任务是如何实现的当我启动一项推测任务时该任务是从一开始就作为较旧且缓慢的任务开始还是从较旧的任务到达的位置开始如果是这样
无法在 Hadoop Map-Reduce 作业中加载 OpenNLP 句子模型

我正在尝试将 OpenNLP 集成到 Hadoop 上的 Map Reduce 作业中从一些基本的句子分割开始在地图函数中运行以下代码 public AnalysisFile analyze String content InputS
Apache Spark 何时发生混洗？

我正在优化 Spark 中的参数并且想确切地了解 Spark 是如何对数据进行洗牌的准确地说我有一个简单的字数统计程序并且想知道spark shuffle file buffer kb如何影响运行时间现在当我将此参数设置得非常高
在 RavenDB 中创建更多类似的内容

我的域中有这些文档 public class Article public string Id get set some other properties public IList

随机推荐

volatile c语言关键字 / cache / 内存一致性

Notion The all in one workspace for your notes tasks wikis and databases
Qt中的QWidget::move函数

QWidget move函数原型 xff1a void move int x int y void move const QPoint amp 其中move的原点是父窗口的左上角 xff0c 如果没有父窗口 xff0c 则桌面即为父窗口
欧拉角和万向节死锁

一什么是欧拉角欧拉角就是物体绕坐标系三个坐标轴 xff08 x xff0c y xff0c z轴 xff09 的旋转角度 xff0c 在这里坐标系可以是世界坐标系 xff0c 也可以是物体坐标系 xff0c 旋转顺序也是任意的 xff0
【freeRTOS内存管理策略详解】

内存管理对应用程序和操作系统来说都非常重要现在很多的程序漏洞和运行崩溃都和内存分配使用错误有关 FreeRTOS操作系统将内核与内存管理分开实现 xff0c 操作系统内核仅规定了必要的内存管理函数原型 xff0c 而不关心这些内存管理函数
NGFF、M.2、PCIe、NVMe概念区分以及PCIEx1 x4 x8 x16区别

对于NGFF M 2 PCIe NVMe等概念的说明解决方案 NGFF Next Generation Form Factor xff0c 顾名思义 xff0c 是物理外形 Form Factor 的标准与 NGFF 并列的是 2 5
二重积分和雅可比行列式

我们以二重积分为例进行说明 xff0c 首先说结论 xff1a 一结论若x 61 x u v y 61 y u v 存在偏导数 xff0c 则二阶雅可比行列式为 61 61 dxdy 61 J2 dudv J2的绝对值且其中积分区域
雅可比行列式和雅可比矩阵

接触雅可比行列式是在二重积分的变量变换中 xff0c 参见我的另一篇文章https blog csdn net xiaoyink article details 88432372 下面我们来详细说明一下雅可比行列式和雅可比矩阵雅可比矩阵
jlink-v8 固件修复

一先说 jlink v8 v9 v10区别 v8基本价格在40左右 xff0c 芯片是atml的 xff0c 但是很多反应是掉固件和提示盗版问题 v9现在主流 xff0c 盗版价100左右 xff0c 主控芯片stm32 做的比较成熟 x
kubernetes学习-快速上手速查手册

目录使用k3s快速搭建k8s安装k8s dashboard使用Helm部署K8S资源k8s核心命令一切推倒重来资源创建方式NamespacePodDeploymentServiceIngress解决官网Ingress安装不了问题使用方式
作为一个4年程序员至少需要掌握的专业技能

一名3年工作经验的程序员应该具备的技能 xff0c 在机缘巧合之中 xff0c 看了这篇博客感觉自己真的是很差 xff0c 一直想着会写if else 就已经是一名程序员了 xff0c 在工作之余也很少学习于是 xff0c 自己的cod
C语言与C++的区别

一 C 43 43 简介本贾尼斯特劳斯特鲁普于1979年4月在贝尔实验室负责分析UNIX系统的内核的流量情况于1979年10月开始着手开发一种新的编程语言在C语言的基础上增加了面向对象机制这就是C 43 43 的来历在1983
我的2011-当梦想照进现实

我的2011年 xff0c 之所以是现在的样子 xff0c 始缘于我三年前的一个决定离职考研对于工作了两年的我来说 xff0c 离职考研是人生的一场博弈我的2011年 xff0c 结束了研究生期间对三维骨骼动画渲染的相关研究 xff0
Dockerfile RUN 同时执行多条命令

Dockerfile RUN 同时执行多条命令 Dokcerfile中的命令每执行一条即产生一个新的镜像 xff0c 当前命令总是在最新的镜像上执行如下Dockerfile xff1a RUN span class hljs built
HC-SR04超声波模块使用记录

文章目录 HC SR04超声波模块使用记录轮询测量方式一模块使用中的问题二应对方法三注意分时测量利用输入捕获测量利用输入捕获测量 HC SR04超声波模块使用记录具体使用方法见HC SR04使用手册 xff0c 本文重点记录该模块
【C语言冒泡排序、选择排序和快速排序】

文章目录前言一冒泡排序二选择排序三快速排序四代码设计与实现代码设计代码实现调试结果冒泡排序改良延伸思考总结前言本文简单介绍了C语言的冒泡排序选择排序快速排序 xff0c 结合本人的理解与使用做一下记录一冒泡排序思
平衡车制作---原理篇

平衡车制作原理篇文章目录平衡车制作原理篇前言直立控制直观感受内部机理速度控制方向控制总结前言本篇教程内容主要来自于直立平衡车模参考设计方案 xff0c 且这里是从概念层面讲述的并没有具体的控制理论方面的内容有了这些概念方面
FreeRTOS使用注意

FreeRTOS使用注意 xff1a 中断中必须使用带FromISR结尾的API函数只有中断优先级处于FreeRTOS可管理的范围内时 xff0c 才能使用FreeRTOS提供的API函数中断中不要使用FreeRTOS提供的内存申请和释放函
现代控制理论基础总结

现代控制理论基础总结 xff08 线性部分 xff09 学习现代控制理论也有两个月的时间了 xff0c 里面涉及的基础内容和公式十分之多 xff0c 所以现在对各部分基础知识作一个总结 1 控制系统的状态表达式在现代控制理论中 xff0c
题库(关于c++的网站都盘了）大盘点（好多没盘到）

1 keda ac 2 hydro ac 3 luogu com cn 4 cplusplus com 5 leetcode cn 6 https loj ac 7 noi cn 8 ybt ssoier cn 8088 9 learncp
利用MapReduce进行二次排序--附例子

首先先来明确几个概念 xff1a 1 分区 partition 1 xff09 分区 xff08 partition xff09 xff1a 默认采取散列值进行分区 xff0c 但此方法容易造成数据倾斜 xff08 大部分数据分到同一个r

利用MapReduce进行二次排序--附例子

利用MapReduce进行二次排序--附例子 的相关文章

随机推荐

热门标签

利用MapReduce进行二次排序--附例子的相关文章