Hadoop编程学习1--WordCount

2023-05-16

package org.apache.hadoop.examples;

import java.io.IOException;
import java.util.Iterator;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class MyWordCount 
{
     //main方法
     public static void main(String[] args) throws Exception 
     {
        //初始化Conf 连接到HDFS 
        Configuration conf = new Configuration();
        conf.set("fs.defaultFS", "hdfs://localhost:9000/user/root");

        //指定输入输出目录
        String[] otherArgs = new String[]{"/user/root/input","/user/root/output"};

        Path path = new Path(otherArgs[1]); 

        //如果输出路径已存在则删除
        FileSystem fileSystem = path.getFileSystem(conf);       
        if (fileSystem.exists(new Path(otherArgs[1]))) 
        {  
           fileSystem.delete(new Path(otherArgs[1]),true);  
        }  

        //如果不是一个输入一个输出路径,则报错
        if(otherArgs.length < 2) 
        {
            System.err.println("Usage: wordcount <in> [<in>...] <out>");
            System.exit(2);
        }

        Job job = Job.getInstance(conf, "word count");  //Job(Configuration conf, String jobName) 设置job名称
        job.setJarByClass(MyWordCount.class);
        job.setMapperClass(MyWordCount.TokenizerMapper.class);  //为job设置Mapper类 
        job.setCombinerClass(MyWordCount.IntSumReducer.class);  //为job设置Combiner类 
        job.setReducerClass(MyWordCount.IntSumReducer.class);  //为job设置Reduce类 

        job.setOutputKeyClass(Text.class);  //设置输出key的类型
        job.setOutputValueClass(IntWritable.class); //设置输出value的类型

        FileInputFormat.addInputPath(job, new Path(otherArgs[0]));  //为map-reduce任务设置InputFormat实现类   设置输入路径
        FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));  //为map-reduce任务设置OutputFormat实现类  设置输出路径
        System.exit(job.waitForCompletion(true)?0:1);
    }

    //Map类，继承自Mapper类--一个抽象类
    public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> 
    {
        //每个单词都在Context中写入1（频次）
        private static final IntWritable one = new IntWritable(1);

        //Text 实现了BinaryComparable类可以作为key值
        private Text word = new Text();   

        public void map(Object key, Text value, Mapper<Object, Text, Text, IntWritable>.Context context) throws IOException, InterruptedException 
        {
            StringTokenizer itr = new StringTokenizer(value.toString()); //得到什么值   StringTokenizer是分割String串的方法

            //如果itr还有下一个分割的值
            while(itr.hasMoreTokens()) 
            {
                //word为Text类型，要用set方法定义值
                this.word.set(itr.nextToken());

                //写入context（上下文，传给Reduce节点）
                context.write(this.word, one);
            }
        }
    }

  //Reduce类，继承自Reducer类--一个抽象类
public static class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> 
{
        private IntWritable result = new IntWritable();
        public void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException 
        {
            int sum = 0;

            IntWritable val;

            //对于每一个相同的key值即word，计算所有节点传入的频次和
            for(Iterator i = values.iterator(); i.hasNext(); sum += val.get()) 
            {
                val = (IntWritable)i.next();
            }

            this.result.set(sum);

            //key为word，result为频次
            context.write(key, this.result);
        } 
    }
}

代码有很清晰的注释，看不懂的话可以评论给我，input目录文件及运行结果output目录如下：

DFS文件目录：

DFS文件目录

/input/a.txt

input/a.txt

/input/aa.txt

/output/part-r-00000

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop编程学习1--WordCount 的相关文章

【c++语法大全】

C 43 43 基础入门 xff08 转载自黑马程序员 xff09 1 C 43 43 初识 1 1 第一个C 43 43 程序编写一个C 43 43 程序总共分为4个步骤创建项目创建文件编写代码运行程序 1 1 1 创建项目 Visu
Ubuntu20.04 USB网卡驱动安装 - MT7601u

型号 xff1a TL WN725N 1 0 免驱版芯片 xff1a MT7601u 具体型号可使用 96 lsusb 96 命令查看确认型号为mt7601u后执行如下命令 sudo apt install git build ess
【浅谈插入排序】

浅谈插入排序插入排序 xff0c 是把无序数列中的数一个个插入到有序数列中 xff0c 直到无序数列没有数为止比如有这么一个数列 xff1a 2 4 6 1 3 5 14 2 0 10 一共有10个数 xff0c 我们可以把第一个数当做
Meta Learning(元学习)详解

元学习概述基本概念基本分类基本流程模型结构概述元学习 xff08 Meta Learing xff09 的提出是针对传统神经网络模型的泛化性能不足对信种类任务适应性较差的特点主要表现为通过少量的计算和新训练数即可用于模型上实现
2022 *CTF REVERSE 的 NaCl

2022 CTF REVERSE 的 NaCl 下载附件 xff1a 照例扔入 exeinfope 中查看信息 xff1a 照例扔入虚拟机中运行一下 xff0c 查看主要回显信息 xff1a 照例扔入 IDA64 中查看伪代码 xff0c
python编码问题的一点笔记

Python编码 xff1a 中文乱码问题 xff1a 如果开头不声明保存编码的格式是什么 xff0c 那么它会默认使用 ASCII 码保存文件这时如果你的代码中有中文就会出错了 xff0c 即使你的中文是包含在注释里面的声明中文编码格
对 IDA 结构体操作的一些理解

对 IDA 结构体操作的一些理解前言 xff1a 刚学逆向时把 IDA pro 权威指南过了一遍 xff0c 但读得并不是很细 xff0c 满足日常使用还是没问题的 xff0c 但是对于一些细节的操作或提高效率的方法倒是没能掌握比如 I
第二届广东省大学生网络攻防大赛 pyre

第二届广东省大学生网络攻防大赛 pyre 以前做过 pyc 逆向 xff0c 直接的 python exe 逆向还是第一次 xff1a 第一种方法 xff1a 用 pyinstxtractor py 将 exe 文件转换成 pyc 文件用
2022 年网刃杯 ez_algorithm

2022 年网刃杯 ez algorithm 下载附件 xff1a 照例扔入 exeinfope 中查看信息 xff0c 64 位无壳 xff1a 照例运行一下 xff0c 查看主要回显信息 xff1a 照例扔入 IDA64 中查看伪代码
Base-N 算法加密解密实现：

目录 Base N 算法加密解密实现 xff1a Base64 加密解密 xff1a xff08 C 语言 python xff09 Base32 加密解密 xff1a xff08 C 语言 xff09 Base N 算法加密解密实现 xf
第二届广东省大学生网络攻防大赛 simple_re

第二届广东省大学生网络攻防大赛 simple re 流程总结 xff1a xff08 思路原文出自 JANlittle 师傅 xff09 程序将关键函数以对象元素的形式存在对象里 xff0c 然后在申请内存中搭配指针间接调用 xff0c 关
解析 DES 加密算法(C语言)：

目录解析 DES 加密算法 C语言 xff1a DES 简介 xff1a DES 算法整体流程 xff1a DES 解密 xff1a C 语言代码实现加密解密逻辑 xff1a 解析 DES 加密算法 C语言 xff1a 内容修改自博客 x
x64dbg 基本使用技巧

x64dbg 基本使用技巧最近使用 DBG 多了起来 xff0c 所以查了一些资料来学习并整理成自适应的笔记本文摘抄自 xff1a x64dbg 使用技巧与实用插件合集官方网站 xff1a https x64dbg com DBG 根
freertos系统栈溢出检测机制简述

FreeRTOS 提供了多种特性来辅助跟踪调试栈相关的问题 uxTaskGetStackHighWaterMark 函数每个任务都独立维护自己的栈空间 xff0c 栈空间总量在任务创建时进行设定 uxTaskGetStackHighWat
记一次 windows 桌面卡顿

记一次 windows 桌面卡顿这几天在 windows 桌面上的操作感觉非常不好 xff0c 一开始以为是电脑老化网络卡顿 C 盘又被垃圾挤占空间或什么自启动软件占了内存 xff0c 复制一个快捷键出来都要缓冲然后就卸载了很多不常
浏览 APT 报告中学习积累

浏览 APT 报告中学习积累工具网站积累 xff1a xff08 APT 报告搜寻网站 xff09 https ti qianxin com https feed watcherlab com index apt https malped
《windows 程序设计》读书笔记一

目录基础知识主要的动态链接库 xff1a API 及内存管理模式 xff1a 第一个 Windows 程序解析 xff1a 头文件 xff1a Windows 程序的入口 xff1a MessageBox 函数 xff1a 基础知识主
《windows 程序设计》读书笔记二

目录 Unicode 历史及介绍美国标准 ASCII xff1a Unicode 方案 xff1a 宽字符和 C 语言 xff1a 宽字符和 Windows xff1a Windows 函数调用 xff1a Unicode 和 Ascii
x86指令编码简述(机器码)

目录 x86指令编码 xff1a 机器码的格式结构 xff1a Mod R M 字节与内存寻址模式探究 xff1a 实战部分机器指令类型 xff1a x86指令编码 xff1a 机器码的格式结构 xff1a 一般的 x86 机器指令格式 x
记一次 cmd 打开 python 报错，环境变量已配置

记一次 cmd 打开 python 报错 xff0c 环境变量已配置输入 python 自动打开应用商店 xff0c 环境变量已配置 xff0c 并且我觉得我只有这一个 python 路径 xff01 排查了半天 xff0c 重启了半天

随机推荐

《windows 程序设计》读书笔记三

目录窗口与消息窗口的创建 xff1a 系统结构 windows 窗口编程概述 xff1a HELLOWIN 程序及剖析 xff1a 若干难点 xff1a 用户程序调用系统还是系统调用用户程序 xff1a DefWindowProc 函数
对 python 正则表达式字面字符串和模式字符串的一点思考

python 的正则表达式是与 Perl 语言类似的正则表达式匹配操作 xff1a 模式和被搜索的字符串既可以是 Unicode 字符串 xff0c 也可以是 8 位字节串 xff0c 但是 Unicode 字符串与 8 位字节串不能混用
记一次 PEview 的报错修正

记一次 PEview 的报错修正从逆向工程核心原理中提到的 https reversecore com 111 中下载的 PEview 在处理 32 位程序时其它目录都还行 xff0c 当点到 IMAGE NT HEADERS gt
Android5.0 Telephony框架初步分析--telecomm

3 2 Telecomm关键类初始化和相互关系 3 2 1 Telecomm简述 Android5 0在Telephony的变化又比较大 xff0c 增加了一个Telecomm模块 xff0c 它位于界面应用如InCallUI和Phone框
freertos应用程序常见错误排查

freertos系统应用程序常见问题对一些比较常见的问题 xff0c 下面简要的以 FAQ 问答的形式给出可能的原因和解决方法问题现象 xff1a 在一个 Demo 应用程序中增加了一个简单的任务 xff0c 导致应用程序崩溃任务创
自下而上和自上而下的注意力模型《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》

本文有点长 xff0c 请耐心阅读 xff0c 定会有收货如有不足 xff0c 欢迎交流 xff0c 另附论文下载地址一文献摘要介绍 Top down visual attention mechanisms have been us
从腾讯VasSonic源码剖析到webview优化的思考

提到 android的webView xff0c 我想大家对它都有点恨之入骨 xff0c 因为它和ios的UIWebView的性能实在差的太远了 xff0c 尤其在4 4以下 xff0c 加载个页面慢的要死 xff0c 出现白屏时间过长没
在VSCode上运行C/C++程序【满满的“肝”货】

文章目录一下载与安装vscode 61 61 下载 61 61 61 61 安装 61 61 二配置编译器MinGW1 下载2 解压3 添加环境变量三安装vscode插件1 安装Chinese2 安装c c 43 43 四运行c
ADRC——ESO扩张状态观测器simulink实现（含代码）

2022 12 10改我重新搭建了一个simulink模型文件 xff0c 已上传网盘 xff1a xff08 有问题请评论提出 xff0c 有空会改正 xff09 链接 xff1a https pan baidu com s 1EIfz
ADRC——TD微分跟踪器simulink实现（含代码）

1 理论基础参照从PID技术到 34 自抗扰控制 34 技术对于离散系统 xff1a 其中 xff0c h为采样时间 r确定跟踪速度 xff0c 称为速度因子 xff1b h0起对噪声的滤波作用 xff0c 成为滤波因子 fst函数定
ADRC——一阶ESO扩张状态观测器simulink实现及C语言代码

理论部分见我之前的博客 xff0c 一阶ESO相比起来实现更简单 xff0c 也更好理解 xff0c 可帮助新手入门使用虽然常见的物理系统 xff0c 绝大多都是二阶系统 xff0c 如F 61 ma 做位置控制时 xff0c 一般用二阶
ubuntu 安装scipy出现的问题

遇到的问题 xff1a no lapack blas resources found 解决方法 xff0c 安装lapack sudo apt get install liblapack dev 然后重新安装scipy xff0c 这次遇到
【软考高项笔记】第2章信息技术发展2.2 新一代信息技术及应用（★）

2 2 新一代信息技术及应用 xff08 xff09 2 2 1 物联网IOT 通过信息传感设备 xff0c 将物品和互联网相连接 xff0c 进行信息交换和通信 1 技术基础物联网架构感知层 xff1a 传感器网络层 xff1a 互
Ubuntu12.04的汉化

博主装上了Ubuntu12 04后进入系统才发现是英文版 xff0c 看着挺费劲的 xff0c 所以需要汉化一下本文适用于ubuntu 12 04英文版的系统 1 进入ubuntu系统 xff0c 在顶部齿状标志找到system 2 在p
freertos优化版printf、sprintf、snprintf

优化版printf sprintf snprintf printf stdarg c 当调用标准 C 库函数时 xff0c 栈空间使用量可能会急剧上升 xff0c 特别是 IO 与字符串处理函数 xff0c 比如 sprintf 在 Fre
分享一下我参加开发者大会以来自己的总结（仅供参考）

手机游戏设计 1选材类型符合移动平台特性 2剧情背景知名度高 3选材定义自己的用户 xff0c 用户觉得游戏的玩法游戏设计法则 xff08 无需全部实现 xff0c 根据自己游戏类型找和适合法则结合 xff09 法则 1 xff1a 富有
时钟周期、机器周期、指令周期的概念及三者之间的关系；定时器及计数器

时钟周期时钟周期也称为振荡周期 xff0c 定义为时钟脉冲的倒数可以这样来理解 xff0c 时钟周期就是单片机外接晶振的倒数 xff0c 例如12M的晶振 xff0c 它的时间周期就是1 12 us xff0c 是计算机中最基本的最小
自旋锁-原理

跟互斥锁一样 xff0c 一个执行单元要想访问被自旋锁保护的共享资源 xff0c 必须先得到锁 xff0c 在访问完共享资源后 xff0c 必须释放锁如果在获取自旋锁时 xff0c 没有任何执行单元保持该锁 xff0c 那么将立即得到锁
openvslam------slam解读系列

是什么 openvslam是日本先进工业科技研究 xff08 National Institute of Advanced Industrial Science and Technology xff09 所于2019年5月20日开源的视觉S
Hadoop编程学习1--WordCount

span class hljs keyword package span org apache hadoop examples span class hljs keyword import span java io IOException

Hadoop编程学习1--WordCount

DFS文件目录：

/input/a.txt

/input/aa.txt

/output/part-r-00000

Hadoop编程学习1--WordCount 的相关文章

随机推荐

热门标签