MapReduce中的二次排序

2023-05-16

在MapReduce操作时，我们知道传递的<key,value>会按照key的大小进行排序，最后输出的结果是按照key排过序的。有的时候我们在key排序的基础上，对value也进行排序。这种需求就是二次排序。

我们先看一下Mapper任务的数据处理过程吧，见下图。

在图中，数据处理分为四个阶段：

（1）Mapper任务会接收输入分片，然后不断的调用map函数，对记录进行处理。处理完毕后，转换为新的<key,value>输出。

（2）对map函数输出的<key, value>调用分区函数，对数据进行分区。不同分区的数据会被送到不同的Reducer任务中。

（3）对于不同分区的数据，会按照key进行排序，这里的key必须实现WritableComparable接口。该接口实现了Comparable接口，因此可以进行比较排序。

（4）对于排序后的<key,value>，会按照key进行分组。如果key相同，那么相同key的<key,value>就被分到一个组中。最终，每个分组会调用一次reduce函数。

（5）排序、分组后的数据会被送到Reducer节点。

在MapReduce的体系结构中，我们没有看到对value的排序操作。怎么实现对value的排序哪？这就需要我们变通的去实现这个需求。

变通手段：我们可以把key和value联合起来作为新的key，记作newkey。这时，newkey含有两个字段，假设分别是k,v。这里的k和v是原来的key和value。原来的value还是不变。这样，value就同时在newkey和value的位置。我们再实现newkey的比较规则，先按照key排序，在key相同的基础上再按照value排序。在分组时，再按照原来的key进行分组，就不会影响原有的分组逻辑了。最后在输出的时候，只把原有的key、value输出，就可以变通的实现了二次排序的需求。

下面看个例子，结合着理解。

假设有以下输入数据，这是两列整数，要求先按照第一列整数大小排序，如果第一列相同，按照第二列整数大小排序。

分析一下，这是一个典型的二次排序问题。

我们先对现在第一列和第二列整数创建一个新的类，作为newkey，代码如下



/**
 * 把第一列整数和第二列作为类的属性，并且实现WritableComparable接口
 */
public static class IntPair implements WritableComparable<IntPair> {
  private int first = 0;
  private int second = 0;

  public void set(int left, int right) {
    first = left;
    second = right;
  }
  public int getFirst() {
    return first;
  }
  public int getSecond() {
    return second;
  }

  @Override
  public void readFields(DataInput in) throws IOException {
    first = in.readInt();
    second = in.readInt();
  }
  @Override
  public void write(DataOutput out) throws IOException {
    out.writeInt(first);
    out.writeInt(second);
  }
  @Override
  public int hashCode() {
    return first+"".hashCode() + second+"".hashCode();
  }
  @Override
  public boolean equals(Object right) {
    if (right instanceof IntPair) {
      IntPair r = (IntPair) right;
      return r.first == first && r.second == second;
    } else {
      return false;
    }
  }
  //这里的代码是关键，因为对key排序时，调用的就是这个compareTo方法
  @Override
  public int compareTo(IntPair o) {
    if (first != o.first) {
      return first - o.first;
    } else if (second != o.second) {
      return second - o.second;
    } else {
      return 0;
    }
  }
}

一定要注意上面的compareTo方法，先按照first比较，再按照second比较。在以后调用的时候，key就是first，value就是second。

下面看一下分组比较函数，代码如下



/**
 * 在分组比较的时候，只比较原来的key，而不是组合key。
 */
public static class GroupingComparator implements RawComparator<IntPair> {
  @Override
  public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2) {
    return WritableComparator.compareBytes(b1, s1, Integer.SIZE/8, b2, s2, Integer.SIZE/8);
  }

  @Override
  public int compare(IntPair o1, IntPair o2) {
    int first1 = o1.getFirst();
    int first2 = o2.getFirst();
    return first1 - first2;
  }
}

一定要注意上面代码中，虽然泛型是IntPair，但是比较的始终是第一个字段，而不是所有的字段。因为要按照原有的key进行分组啊。

如果以上的代码明白，再看一下自定义的Mapper类和Reducer类吧



public static class MapClass extends Mapper<LongWritable, Text, IntPair, IntWritable> {

  private final IntPair key = new IntPair();
  private final IntWritable value = new IntWritable();

  @Override
  public void map(LongWritable inKey, Text inValue, 
                  Context context) throws IOException, InterruptedException {
    StringTokenizer itr = new StringTokenizer(inValue.toString());
    int left = 0;
    int right = 0;
    if (itr.hasMoreTokens()) {
      left = Integer.parseInt(itr.nextToken());
      if (itr.hasMoreTokens()) {
        right = Integer.parseInt(itr.nextToken());
      }
      key.set(left, right);
      value.set(right);
      context.write(key, value);
    }
  }
}

public static class Reduce extends Reducer<IntPair, IntWritable, Text, IntWritable> {
  private static final Text SEPARATOR = new Text("------------------------------------------------");
  private final Text first = new Text();

  @Override
  public void reduce(IntPair key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
    context.write(SEPARATOR, null);
    first.set(Integer.toString(key.getFirst()));
    for(IntWritable value: values) {
      context.write(first, value);
    }
  }
}

在map函数中，要注意k2是由哪几个字段组成的；在reduce函数中，要注意输出的k3是IntPair中的第一个字段，而不是所有字段。

好了，看一下驱动代码吧，如下



public static void main(String[] args) throws Exception {
  Configuration conf = new Configuration();

  final FileSystem fileSystem = FileSystem.get(new URI("hdfs://hadoop2:9000"), conf);
  fileSystem.delete(new Path(OUTPUT_PATH), true);

  Job job = new Job(conf, "secondary sort");
  job.setJarByClass(SecondarySortApp.class);
  job.setMapperClass(MapClass.class);
  job.setReducerClass(Reduce.class);

  job.setGroupingComparatorClass(GroupingComparator.class);

  job.setMapOutputKeyClass(IntPair.class);
  job.setMapOutputValueClass(IntWritable.class);

  job.setOutputKeyClass(Text.class);
  job.setOutputValueClass(IntWritable.class);

  FileInputFormat.addInputPath(job, new Path(INPUT_PATH));
  FileOutputFormat.setOutputPath(job, new Path(OUTPUT_PATH));
  System.exit(job.waitForCompletion(true) ? 0 : 1);
}

以上驱动代码中，重大变化是设置了分组比较函数。好了，看看执行结果吧


------------------------------------------------
20    21
------------------------------------------------
50    51
50    52
50    53
50    54
------------------------------------------------
60    51
60    52
60    53
60    56
60    57
60    61
------------------------------------------------
70    54
70    55
70    56
70    57
70    58
70    58

看看，是不是我们想要的结果啊！！

如果读者能够看明白，那么我出个思考题：在以上例子中，按照第一列升序，第二列倒序输出？

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

MapReduce

中的二次排序

MapReduce中的二次排序的相关文章

Mapfile 作为 MapReduce 作业的输入

我最近开始使用 Hadoop 在使用 Mapfile 作为 MapReduce 作业的输入时遇到问题以下工作代码在 hdfs 中编写一个名为 TestMap 的简单 MapFile 其中包含三个 Text 类型的键和三个 BytesWri
Spark：按元组/列中的多个值对 RDD 进行排序

所以我有一个RDD如下 RDD String Int String 举个例子 b 1 a a 1 b a 0 b a 0 a 最终结果应该类似于 a 0 a a 0 b a 1 b b 1 a 我该怎么做这样的事情尝试这个 rdd sor
STDIN 或文件作为 Hadoop 环境中的映射器输入？

因为我们需要将一堆文件读入映射器在非 Hadoop 中环境我用的os walk dir and file open path mode 读入每个文件然而在 Hadoop 环境中当我读到 HadoopStreaming 转换将
在spark中设置textinputformat.record.delimiter

在 Spark 中可以设置一些 hadoop 配置设置例如 System setProperty spark hadoop dfs replication 1 这有效复制因子设置为 1 假设是这种情况我认为这种模式在常规 hado
MapReduce：ChainMapper 和 ChainReducer

我需要将 MapReduce jar 文件拆分为两个作业以获得两个不同的输出文件每个文件来自两个作业的每个减速器我的意思是第一个作业必须生成一个输出文件该文件将作为链中第二个作业的输入我在 hadoop 版本 0 20 中读到了一
Spark 在 Hbase 的 InputSplit 期间给出空指针异常

我正在使用 Spark 1 2 1 Hbase 0 98 10 和 Hadoop 2 6 0 从 hbase 检索数据时出现空点异常找到下面的堆栈跟踪 sparkDriver akka actor default dispatcher 2
我的 cdh5.2 集群在运行 hbase MR 作业时出现 FileNotFoundException

我的 cdh5 2 集群运行 hbase MR 作业时出现问题例如我将 hbase 类路径添加到 hadoop 类路径中 vi etc hadoop conf hadoop env sh 添加行 export HADOOP CLASSP
Hadoop MapReduce：可以在一个 hadoop 作业类中定义两个映射器和缩减器吗？

我有两个独立的 java 类用于执行两个不同的 MapReduce 作业我可以独立运行它们对于这两个作业它们所操作的输入文件是相同的所以我的问题是是否可以在一个java类中定义两个映射器和两个缩减器例如 mapper1 clas
线程“主”java.lang.VerifyError 中出现异常：操作数堆栈上的类型错误

在给定 input txt 文件中查找最大温度的 Map Reduce 程序中发生了此错误我写了两栏分别是年份和温度 Exception in thread main java lang VerifyError Bad type on
流数据和 Hadoop？（不是 Hadoop 流）

我想使用 MapReduce 方法分析连续的数据流通过 HTTP 访问因此我一直在研究 Apache Hadoop 不幸的是 Hadoop 似乎希望以固定大小的输入文件开始作业而不是在新数据到达时将其传递给消费者事实确实如此还是我
Hive 左外连接长期运行

Hortonworks HDP 2 3 0 Hive 0 14 Table T1 partition on col1 no bucket ORC 应用程序 1 2 亿行和 6GB 数据大小Table T2 partition on col2
使用 Google AppEngine MapReduce 处理所有记录后，如何从计数器获取值？

使用 Google AppEngine MapReduce 处理所有记录后如何从计数器获取值或者我在这里错过了计数器的用例示例代码来自http code google com p appengine mapreduce wiki Us
使用 MongoDB 的 MapReduce 选择不同的多个字段

我想在 MongoDB 上执行这个 SQL 语句 SELECT DISTINCT book author from library 到目前为止 MongoDB 的 DISTINCT 一次仅支持一个字段对于多个字段我们必须使用 GROUP
Hadoop：Reducer 将 Mapper 输出写入输出文件

我遇到了一个非常非常奇怪的问题减速器确实可以工作但是如果我检查输出文件我只找到了映射器的输出当我尝试调试时在将映射器的输出值类型从 Longwritable 更改为 Text 后我发现字数示例存在相同的问题 package o
Hadoop 性能

我安装了hadoop 1 0 0并尝试了字数统计示例单节点集群完成时间为 2 分 48 秒然后我尝试了标准的 Linux 字数统计程序该程序在同一组 180 kB 数据上运行只需 10 毫秒是我做错了什么还是 Hadoop 非
为什么组合器输入记录的数量比映射的输出数量多？

Combiner 在 Mapper 之后 Reducer 之前运行它将接收给定节点上的 Mapper 实例发出的所有数据作为输入然后它将输出发送到Reducers 因此组合器输入的记录应小于映射输出的记录 12 08 29 13 38
mongodb - 检索数组子集

看似简单的任务对我来说是一个挑战我有以下 mongodb 结构 services TCP80 data status 1 delay 3 87 ts 1308056460 status 1 delay 2 83 ts 1308058080
Sqoop - 绑定到 YARN 队列

因此使用 MapReduce v2 您可以使用绑定到某些 YARN 队列来管理资源和优先级基本上通过使用 hadoop jar xyz jar D mapreduce job queuename QUEUE1 input output
CouchDB 通过三个索引键进行查询和过滤

我目前正在尝试按具有三个值的键进行排序和排序但让我们从文档结构开始 id DOCIDGOESHERE01 type MESSAGE date 2011 08 24 06 49 02 author USERIDGOESHERE01 rece
运行 Sqoop 导入和导出时如何找到最佳映射器数量？

我正在使用 Sqoop 版本 1 4 2 和 Oracle 数据库运行 Sqoop 命令时例如这样 sqoop import fs

随机推荐

int 类型究竟多少字节？

今天发现NEON技术中 int类型的字节数是2 xff0c 感觉很奇怪 xff0c 最早写51单片机时也是2 xff0c 后来到了观念转变成了4 xff0c 现在有遇到了2 一转自 http www tuicool com article
python实现K均值聚类算法

之前做大作业的时候本来想用聚类法给点集分类的 xff0c 但是太复杂了 xff0c 于是最后没有采用这个方案现在把之前做的一些工作整理出来写个小博客 K means聚类法原理 xff1a 聚类是一个将数据集中在某些方面相似的数据成员进行分
复合型自适应步长的Gauss型求积（附代码）

复合型自适应步长的Gauss型求积先前在做数值分析实验时 xff0c 把高斯型求积公式和复合型自适应步长的求积融合到了一起 xff0c 但是后来发现题目没有这个要求现在就把这个思路分享一下上题目 xff1a 实验目的 xff1a 学
pid摄像头循迹（opencv和openmv）

pid摄像头循迹 xff08 opencv和openmv xff09 用摄像头进行循迹的方法参考硬件选型方面软件思路一图像预处理 xff1a 代码部分二线性拟合opencv线性拟合 xff1a 实际在树莓派上运行时 xff0c 帧率也比
通过云端自动生成openmv的神经网络模型，进行目标检测

通过云端自动生成openmv的神经网络模型 xff0c 进行目标检测 OpenMV训练神经网络模型 xff08 目标识别 xff09 一准备材料 xff1a 二软件下载三准备数据集 xff1a 四数据集的上传与训练 OpenMV训练
opencv学习(9):cv::Scalar、cv::Mat::zeros

1 cv Scalar cv Scalar是opencv的一个结构体 xff0c 其定义如下 xff1a xff08 c 43 43 中的结构体如下 xff0c 可以存放1 4个数值 xff09 various constructors S
德国大陆ARS408系列毫米波雷达数据解析

本人已完成对该型号系列毫米波雷达的解析工作 xff0c 有需求请私信联系
nmap使用详解

nmap介绍 nmap xff08 Network Mapper xff09 是一款开源免费的针对大型网络的端口扫描工具 xff0c nmap可以检测目标主机是否在线主机端口开放情况检测主机运行的服务类型及版本信息检测操作系统与设备类
OLED屏幕花屏的原因（I2C+DMA）

OLED屏幕在通电后花屏 xff0c 呈雪花状在网上查询原因 xff0c 开始了尝试 xff1a 1 可能是由于杜邦线的问题 xff0c 可能接触不良导致 xff0c 但更换了杜邦线依然花屏 2 可能是OLED屏幕问题因为经常在工作 x
竞赛保研（自动化专业）

一感谢从大三的五月份一直到9 28号推免结束 xff0c 最终也是保研到了梦校 xff0c 还好我坚持到了最后一刻感谢父母 xff0c 感谢远方的她 xff0c 感谢老师 xff0c 感谢实验室的平台 xff0c 也要感谢每一位一起拼
随机森林的简单学习记录

随机森林小记这里采用的随机森林的库选择sklearn库 1 首先是导入数据 xff1a path span class token operator 61 span span class token string 34 D Epilept
Linux的c++环境配置与cmake的使用

Ubuntu18 04安装虚拟机安装虚拟机软件版本 xff1a VMware Workstation 16 Pro 版本号 xff1a Ubuntu18 04 安装参考 xff1a http t csdn cn P71XR 虚拟机分辨率
用KDevelop来编辑与编译ROS文件

新建一个ROS工程 xff1a 首先在工作目录下打开终端 xff0c 创建一个src目录 xff0c 放置源代码 xff08 系统要求 xff09 xff0c 并将当前目录切换到src目录中 xff1a mkdir src cd src s
自制三维激光扫描建模

看图片就是我做的东西 xff0c 很炫酷是不是好吧 xff0c 开玩笑 xff0c 这是电影普罗米修斯的截图当初看这个电影的时候就感觉这东西好眩酷 xff0c 我能不能做出来最近借着帮做毕业设计的机会我也做了一个就是这个丑丑的东西啦
ICE C++ Hello World

ICE C 43 43 Hello World实例教程 1 概述本文演示了如何编写一个最简单的C 43 43 ICE Internet Communications Engine 应用程序 xff0c 包括必要环境的安装该应用程序包含客
华为工作的感悟

参考 xff1a http www openlab net cn forums thread 1002986 1 p10035795 北邮北 xff0c 清华硕 xff0c 一年两个月的华为生活总结 xff0c 算了 xff0c 贴出来了
MRCP 媒体资源控制协议

媒体资源控制协议 xff08 Media Resource Control Protocol MRCP xff09 是一种通讯协议 xff0c 用于语音服务器向客户端提供各种语音服务如语音识别和语音合成 MRCP并不定义会话连接 xff0
matlab(1):使用matlab处理excel数据进行画图

目录 0 说明 1 直接使用xlsread读取出错 2 解决办法 3 绘图 0 说明 Excel数据示例 xff08 number filter radius 0 8 3 csv xff09 xff0c 一共99行数据 xff08 4列 x
Hadoop中VIntWritable编码方式解析

最近因为实验室的云计算项目 xff0c 开始学习Hadoop xff0c 有时间就记录一下自己在学习过程中的一些小收获吧 Hadoop权威指南在序列化这一节有个例子程序 xff0c 叫做TextPair xff0c 代码略长 xff0c
MapReduce中的二次排序

在MapReduce操作时 xff0c 我们知道传递的 lt key value gt 会按照key的大小进行排序 xff0c 最后输出的结果是按照key排过序的有的时候我们在key排序的基础上 xff0c 对value也进行排序这种需

MapReduce中的二次排序

MapReduce中的二次排序 的相关文章

随机推荐

热门标签

MapReduce中的二次排序的相关文章