MapReduce之MR处理：按课程排学生名词以及最高最低平均分数

2023-05-16

根据此篇文章可以熟练使用Reduce阶段进行分组，并且了解jdk8新特性代码。

我们开看下原始数据

某地方编辑的txt文件数据不是太大：

English,liudehua,80
English,lijing,79
English,nezha,85
English,jinzha,60
English,muzha,71
English,houzi,99
English,libai,88
English,hanxin,66
English,zhugeliang,95
Math,liudehua,74
Math,lijing,72
Math,nezha,95
Math,jinzha,61
Math,muzha,37
Math,houzi,37
Math,libai,84
Math,hanxin,89
Math,zhugeliang,93
Computer,liudehua,54
Computer,lijing,73
Computer,nezha,86
Computer,jinzha,96
Computer,muzha,76
Computer,houzi,92
Computer,libai,73
Computer,hanxin,82
Computer,zhugeliang,100

一、MR之学生成绩，最高，最低，平均分数。

1.Mapper阶段代码

package com.studentExam.avgscore;

/**
 * $功能描述： AvgscoreMapper
 *
 * @author ：smart-dxw
 * @version ： 2019/6/19 21:58 v1.0
 */

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class AvgMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        // 部曲
        String line = value.toString();
        String[] s = line.split(",");
        // 这里k根据姓名区分
        context.write(new Text(s[1]), new IntWritable(Integer.parseInt(s[2])));
    }
}

2.Reducer阶段代码

package com.studentExam.avgscore;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;
import java.util.ArrayList;
import java.util.IntSummaryStatistics;
import java.util.Iterator;
import java.util.List;
import java.util.stream.Collectors;

/**
 * $功能描述： AvgReducer
 *
 * @author ：smart-dxw
 * @version ： 2019/6/19 22:01 v1.0
 */
public class AvgReducer extends Reducer<Text, IntWritable, Text, Text> {
    @Override
    protected void reduce(Text key, Iterable<IntWritable> value, Context context) throws IOException, InterruptedException {
        // 接收 成绩
        List<Integer> scores = new ArrayList<Integer>();
        // reduce阶段获取成绩
        Iterator<IntWritable> it = value.iterator();
        while (it.hasNext()) {
            scores.add(it.next().get());
        }

        // 获取集合的元素数量 总和 最小 平均 最大
//      IntSummaryStatistics{count=3, sum=237, min=66, average=79.000000, max=89}
        IntSummaryStatistics score = scores.stream().collect(Collectors.summarizingInt(Integer::intValue));
        // 输出 Math.round() 方法返回一个最接近的 int、long 型值，四舍五入。
        context.write(key, new Text(score.getMax() + "\t" + score.getMin() + "\t" + Math.round(score.getAverage())));
    }
}

3.Job类这里job类定义了一个公共的驱动类

package com.studentExam.avgscore;

import com.Drive;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;

import java.io.IOException;
import java.net.URISyntaxException;

/**
 * $功能描述： run
 *
 * @author ：smart-dxw
 * @version ： 2019/6/19 22:02 v1.0
 */
public class AvgRun {
    public static void main(String[] args) throws ClassNotFoundException, URISyntaxException, InterruptedException, IOException {
        args = new String[]{
                "C:\\studentExam\\01\\in",
                "C:\\studentExam\\01\\AvgRun"
        };
        Drive.run(AvgRun.class,
                AvgMapper.class,
                Text.class,
                IntWritable.class,
                AvgReducer.class,
                Text.class,
                Text.class,
                args[0],
                args[1]);
    }
}

结果

hanxin	89	66	79
houzi	99	37	76
jinzha	96	60	72
libai	88	73	82
lijing	79	72	75
liudehua	80	54	69
muzha	76	37	61
nezha	95	85	89
zhugeliang	100	93	96

二、根据课程得出高、中、低的学生以及人数。

数据材料还是上边的第一个原始数据：

1.Mapper阶段代码

package com.studentExam.classscore;

/**
 * $功能描述： AvgscoreMapper
 *
 * @author ：smart-dxw
 * @version ： 2019/6/19 21:58 v1.0
 */

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class AvgClassMapper extends Mapper<LongWritable, Text, Text, Text> {

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String line = value.toString();
        String[] s = line.split(",");
        // 去重班级 拼接 姓名与成绩在reduce阶段进行过滤
        context.write(new Text(s[0]), new Text(s[1] + "," + s[2]));
    }
}

2.Reduce阶段代码

package com.studentExam.classscore;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;
import java.util.Iterator;

/**
 * $功能描述： AvgReducer
 *
 * @author ：smart-dxw
 * @version ： 2019/6/19 22:01 v1.0
 */
public class AvgClassReducer extends Reducer<Text, Text, Text, Text> {

    Text k = new Text();
    Text v = new Text();

    @Override
    protected void reduce(Text key, Iterable<Text> value, Context context) throws IOException, InterruptedException {
        // 高 中 低 学生
        String hStr = "";
        String mStr = "";
        String lgStr = "";

        // reduce阶段获取学生
        Iterator<Text> text = value.iterator();
        while (text.hasNext()) {
            String[] split = text.next().toString().split(",");
            int score = Integer.parseInt(split[1]);
            // 高级（90及以上）中级（80到89）低级（0到79）
            if (score >= 90) {
                hStr += ", " + split[0];
            } else if (score >= 80 && score <= 89) {
                mStr += ", " + split[0];
            } else if (score <= 70) {
                lStr += ", " + split[0];
            }
        }
        // 过滤掉 ", "
        hStr = hStr.substring(2);
        mStr = mStr.substring(2);
        lStr = lStr.substring(2);
        // 封装key
        k.set("课程" + key.toString() + ":\n");
        // 封装value 这里split切分因为拼接是 ", "所以切分应该是", "因为结果展示是", "相对应格式化结果
        String s = "高:\t" + hStr + "\t总人数:" + hStr.split(", ").length + "人\n"
                + "\t中:\t" + mStr + "\t总人数:" + mStr.split(", ").length + "人\n"
                + "\t低:\t" + lStr + "\t总人数:" + lStr.split(", ").length + "人\n";
        v.set(s);
        context.write(k, v);
    }
}

3.Job阶段代码

package com.studentExam.classscore;

import com.Drive;
import org.apache.hadoop.io.Text;

import java.io.IOException;
import java.net.URISyntaxException;

/**
 * $功能描述： run
 *
 * @author ：smart-dxw
 * @version ： 2019/6/19 22:02 v1.0
 */
public class AvgClassRun {

    public static void main(String[] args) throws ClassNotFoundException, URISyntaxException, InterruptedException, IOException {
        args = new String[]{
                "C:\\studentExam\\01\\in",
                "C:\\studentExam\\01\\AvgClassRun"
        };
        Drive.run(AvgClassRun.class,
                AvgClassMapper.class,
                Text.class,
                Text.class,
                AvgClassReducer.class,
                Text.class,
                Text.class,
                args[0],
                args[1]);
    }
}

结果

课程Computer:
	甲级:	zhugeliang, houzi, jinzha	总人数:3人
	乙级:	hanxin, nezha	总人数:2人
	丙级:	liudehua	总人数:1人

课程English:
	甲级:	zhugeliang, houzi	总人数:2人
	乙级:	liudehua, libai, nezha	总人数:3人
	丙级:	hanxin, jinzha	总人数:2人

课程Math:
	甲级:	zhugeliang, nezha	总人数:2人
	乙级:	hanxin, libai	总人数:2人
	丙级:	muzha, houzi, jinzha	总人数:3人

感谢老铁支持：驱动类看另外一个地址

https://blog.csdn.net/hengyufxh1/article/details/93249741

老铁加油：我在工地等你！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

MapReduce

按课程排学生名词以及最高最低平均分数

MapReduce之MR处理：按课程排学生名词以及最高最低平均分数的相关文章

高效查询Hbase

我使用 Java 作为查询 Hbase 的客户端我的 Hbase 表设置如下 ROWKEY HOST EVENT 21 1465435 host hst com clicked 22 1463456 hlo wrld com dragge
RavenDB 索引错误

我刚刚开始使用 Raven 我创建的索引始终无法索引任何内容我在 Raven 服务器上发现了很多如下所示的错误 Index HomeBlurb IncludeTotalCosts Error Cannot implicitly conve
将json数据保存在hadoop的hdfs中

我有以下减速器类 public static class TokenCounterReducer extends Reducer
Hadoop：映射器和缩减器的数量

我使用不同数量的映射器和缩减器例如 1 个映射器和 1 个缩减器 1 个映射器和 2 个缩减器 1 个映射器和 4 个缩减器在 1 1GB 文件上多次运行 Hadoop MapReduce Hadoop安装在具有超线程的四核机器上以下
MapReduce 上的Reduce 函数显示不正确的结果——为什么？

我有一个数据结构来跟踪不同城市的人们 in db persons name John city Seattle name Bill city Portland 我想运行一个地图缩减来获取每个城市有多少人的列表所以结果将如下所示 id Se
如何在有或没有 Pig 的情况下使用 Cassandra 的 Map Reduce？

有人可以解释 MapReduce 如何与 Cassandra 6 配合使用吗我已经阅读了字数统计示例但我不太明白 Cassandra 端与客户端端发生的情况 https svn apache org repos asf cassan
在 Google App Engine 中使用 mapreduce 的简单反例

我对 GAE 中 MapReduce 支持的当前状态有些困惑根据文档http code google com p appengine mapreduce http code google com p appengine mapreduce
MongoDB 根据 _id 统计每分钟新文档数

我想创建每分钟存储多少新文档的统计数据由于具有标准 ObjectID 的 id 字段已经包含文档创建的时间戳我认为应该可以以某种方式使用它在 Stackoverflow 上我发现了以下映射归约代码可以在有用于创建数据的专用字段时完
我的 cdh5.2 集群在运行 hbase MR 作业时出现 FileNotFoundException

我的 cdh5 2 集群运行 hbase MR 作业时出现问题例如我将 hbase 类路径添加到 hadoop 类路径中 vi etc hadoop conf hadoop env sh 添加行 export HADOOP CLASSP
Hadoop MapReduce：可以在一个 hadoop 作业类中定义两个映射器和缩减器吗？

我有两个独立的 java 类用于执行两个不同的 MapReduce 作业我可以独立运行它们对于这两个作业它们所操作的输入文件是相同的所以我的问题是是否可以在一个java类中定义两个映射器和两个缩减器例如 mapper1 clas
Hadoop：java.lang.ClassCastException：org.apache.hadoop.io.LongWritable 无法转换为 org.apache.hadoop.io.Text

我的程序看起来像 public class TopKRecord extends Configured implements Tool public static class MapClass extends Mapper
在 Hadoop MapReduce 中解析 PDF 文件

我必须在 Hadoop 的 MapReduce 程序中解析 HDFS 中的 PDF 文件所以我从 HDFS 获取 PDF 文件为输入分割它必须被解析并发送到 Mapper 类为了实现这个输入格式我已经经历过这个link http cod
为什么map任务总是运行在单节点上

我有一个具有 4 个节点的完全分布式 Hadoop 集群当我将作业提交给 Jobtracker 时 Jobtracker 认为 12 个映射任务对我的工作来说很酷但奇怪的事情发生了这 12 个映射任务始终在单个节点上运行而不是在整个
Spark：JavaRDD 到 JavaPairRDD<>

我有一个JavaRDD
使用 Hadoop MapReduce 的计算语言学项目构想

我需要做一个关于计算语言学课程的项目是否有任何有趣的语言问题其数据密集程度足以使用 Hadoop MapReduce 来解决解决方案或算法应尝试分析并提供语言领域的一些见解但是它应该适用于大型数据集以便我可以使用 hado
如何在hadoop/map reduce中创建固定行数的输出文件？

假设我们有 N 个具有不同行数的输入文件我们需要生成输出文件使得每个输出文件恰好有 K 行最后一个输出文件可以有是否可以使用单个 MR 作业来完成此操作我们应该打开文件以便在reducer中显式写入输出中的记录应该被打乱 tha
java.lang.IllegalArgumentException：错误的 FS：，预期：hdfs://localhost:9000

我正在尝试实现reduce side join 并使用mapfile reader来查找分布式缓存但在stderr中检查时它没有查找值它显示以下错误 lookupfile文件已经存在于hdfs中并且似乎已正确加载进入缓存如标准输出中
如何使用新的 Hadoop API 来使用 MultipleTextOutputFormat？

我想编写多个输出文件如何使用 Job 而不是 JobConf 来执行此操作创建基于密钥的输出文件名的简单方法 input data type key value cupertino apple sunnyvale banana cupe
遍历 ArrayWritable - NoSuchMethodException

我刚刚开始使用 MapReduce 并且遇到了一个奇怪的错误我无法通过 Google 回答该错误我正在使用 ArrayWritable 制作一个基本程序但是当我运行它时在Reduce过程中出现以下错误 java lang Runti
RavenDB：为什么我会在此多重映射/归约索引中获得字段空值？

受到 Ayende 文章的启发https ayende com blog 89089 ravendb multi maps reduce indexes https ayende com blog 89089 ravendb multi m

随机推荐

Linux 内核配置选项(转)

Linux 内核配置选项 from http www mitbbs com mitbbs article t php board 61 Linux amp gid 61 10715608 amp ftype 61 0 第一部分 01 Cod
Cortex-M3双堆栈MSP和PSP

什么是栈 xff1f 在谈M3堆栈之前我们先回忆一下数据结构中的栈栈是一种先进后出的数据结构类似于枪支的弹夹 xff0c 先放入的子弹最后打出 xff0c 后放入的子弹先打出 M3内核的堆栈也不例外 xff0c 也是先进后出的栈的作用
烧毁DC/DC电路问题

使用芯龙半导体的XL7005A DC DC芯片已经很多年了 xff0c 用的也很稳定这次在做一个设备的时候 xff0c 系统上电就会烧DC DC芯片以及系统电路中的LDO和MCU等试了很多次终于发现规律了 xff0c DC DC电路就
FreeRTOS内核全局变量

想要分析FreeRTOS源码 xff0c 想要理解FreeRTOS源码的整个宏观架构 xff0c 有一个前提就是必须知道FreeRTOS内核中那些全局变量的意义 xff0c 每个全局变量都是用来干什么的只有了解了这些全局变量我们才能从宏观
基于LWIP协议栈RAW API的 UDP传输实验

什么是UDP xff1f UDP是用户数据报协议 xff0c 是OSI参考模型中的传输层协议 UDP的特点缺点 xff1a 无连接的 xff0c 不可靠的 xff0c 不能保证数据安全到达目的地优点 xff1a 消耗资源小 xff0c
初识CANOpen

什么是CANOpen CANOpen是位于CAN总线之上的一个应用层协议 CAN总线只规定了物理层和数据链路层 xff0c 有了这两层 xff0c 数据就可以在CAN总线上传输了我们和哪个设备通信就和哪个设备约定好 xff0c 哪个ID代
STM32单片机被锁无法烧写程序解决办法

以前遇到无法烧写程序的问题在开发中 xff0c 单片机突然无法烧写程序 xff0c 这种情况相信大家应该都遇到过比如烧写程序引脚被设置为别的功能这种情况也是最常见的我们可以把复位电容短路 xff0c 让单片机复位 xff0c 然后点
STM32F407以太网DMA描述符和数据链路层收发数据

本文主要介绍STM32F407单片机MAC内核的DMA描述符 xff0c 以及如何实现以太网二层的数据收发这一篇先实现数据链路层的正常收发 xff0c 下一篇再去介绍如何把LWIP移植到单片机上大部分资料都是把LWIP移植和以太网卡驱动
linux查看日志常用命令

线上环境出现问题 xff0c 熟悉常用的日志操作命令 xff0c 对有效的排查出问题至关重要下面将介绍一些常用的命令 xff0c 一起学习下 1 tail命令 xff08 查询日志文件尾部 xff09 tail f 日志文件 xff1a
定时事件链表

本文主要写的是 xff1a 将需要定时的事件作为一个链表节点添加到链表中所写代码是从LWIP源码中复制出来的 xff0c 稍作修改当阅读到lwip源码timers c文件中的sys timeout函数时 xff0c 觉得非常适合如下一种
LAN8720A芯片

LAN8720A是一个10 100M 的以太网PHY芯片带有SMI接口 xff0c 支持RMII LAN8720A各个管脚的功能 xff1a MDIO MDC是站管理接口 SMI接口引脚 SMI是标准接口 xff0c 比如交换机芯片一般
无刷无霍尔BLCD电机控制

声明 xff1a 本文出自百度文库无刷无霍尔电机控制 xff0c 因为该文为繁体 xff0c 看起来特别别扭 xff0c 特此翻译文库网址 xff1a span class hljs label https span wenku span
如何高效阅读一篇论文？来自18位教授、主编和博士生的最好建议！

撰文 Elisabeth Pain xff08 翻译何伟雄 xff1b 审校魏潇 xff09 文章来源自公众号科研圈 xff08 ID xff1a keyanquan xff09 即便是专业的科研从业者 xff0c 也无法做到像看小说一
了解FreeRTOS操作系统

对于初学者来说 xff0c 想要弄懂FreeRTOS操作系统 xff0c 首先需要知道FreeRTOS需要包含哪些文件 xff0c 从官网 https sourceforge net projects freertos files 上下载的
Windows程序的入口是哪里？写出Windows消息机制的流程

Windows程序的入口是WinMain 函数 Windows应用程序消息处理机制 xff1a A 操作系统接收应用程序的窗口消息 xff0c 将消息投递到该应用程序的消息队列中 B 应用程序在消息循环中调用GetMessage函数从消息队
Linux内核编译与安装：4.4.0-21→4.14.0

1 背景从事Linux环境下开发工作 xff0c 一直想自己玩 xff0c 纯属好奇 xff0c 没撒背景 2 编译环境 zg Linux etc uname a xff08 查看内核 xff09 Linux zg Linux 4 4 0
gazebo的学习与使用

Gazebo教程 xff08 使用roslaunch启动Gazebo world文件和URDF模型 xff09 启动Gazebo xff0c 打开world模型以及向仿真环境中插入机器人模型的方法有很多 xff0e 在这个教程中 xff0c
KDD2019经典论文奖-CELF算法实现

数据挖掘 KDD 领域 CELF 已成为一种经典的社会网络影响最大化发现算法 xff0c 用于改进贪心算法的效率提升 700 获得 KDD 2019 的经典论文奖 xff0c 作者 xff1a Jure Leskovec xf
英语常用短语1

What are you trying to say xff08 你到底想说什么 xff1f xff09 Don 39 t be silly xff08 别胡闹了 xff09 How strong are your glasses xff0
MapReduce之MR处理：按课程排学生名词以及最高最低平均分数

根据此篇文章可以熟练使用Reduce阶段进行分组 xff0c 并且了解jdk8新特性代码我们开看下原始数据某地方编辑的txt文件数据不是太大 xff1a English liudehua 80 English lijing 79 Eng

MapReduce之MR处理：按课程排学生名词以及最高最低平均分数

MapReduce之MR处理：按课程排学生名词以及最高最低平均分数 的相关文章

随机推荐

热门标签

MapReduce之MR处理：按课程排学生名词以及最高最低平均分数的相关文章