Hadoop - wordCount 实例

2023-11-17

hadoop 创建文件夹存放需要被统计的文件

hadoop fs -mkdir /usr

创建单子文件并写入内容，可在网上找几篇英文文章写入

vim word.txt

上传到 hdfs

hadoop fs -put word.txt /usr

利用 maven 创建 word-count 项目

mvn archetype:generate -DgroupId=personal.mr.test -DartifactId= word-count -DarchetypeArtifactId=maven-archetype-quickstart

pom.xml 引入需要的包

<properties>
	<hadoop-version>3.2.1</hadoop-version>
</properties>
<dependencies>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-common</artifactId>
        <version>${hadoop-version}</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-mapreduce-client-core</artifactId>
        <version>${hadoop-version}</version>
    </dependency>
</dependencies>

编写 Mapper 程序

package personal.mr.test;

import org.apache.commons.logging.Log;
import org.apache.commons.logging.LogFactory;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.util.Arrays;

public class WordCountMapper extends Mapper<LongWritable, Text, Text, LongWritable> {

    private static  final Log logger = LogFactory.getLog(WordCountMapper.class);

    public void map(LongWritable key, Text value, Context context)  {
        logger.info("key =>" + key);
        logger.info("value =>" + value);

        Arrays.stream(value.toString().split(" ")).forEach(word -> {
            try {
                context.write(new Text(word), new LongWritable(1));
            }
            catch (Exception e) {
                e.printStackTrace();
            }
        });
    }
}

编写 Reducer 程序

package personal.mr.test;

import org.apache.commons.logging.Log;
import org.apache.commons.logging.LogFactory;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class WordCountReducer extends Reducer<Text, LongWritable, Text, LongWritable> {

    private static final Log logger = LogFactory.getLog(WordCountReducer.class);

    protected void reduce(Text key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException {

        LongWritable longWritable = new LongWritable(0);

        values.forEach(value -> {
            longWritable.set(longWritable.get() + value.get());
        });

        context.write(key, longWritable);
    }
}

编写主程序

package personal.mr.test;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class Application {

    public static void main(String[] args) {
        try {
            Job job = Job.getInstance(new Configuration());
            job.setJarByClass(Application.class);

            job.setMapperClass(WordCountMapper.class);
            job.setMapOutputKeyClass(Text.class);
            job.setMapOutputValueClass(LongWritable.class);

            job.setReducerClass(WordCountReducer.class);
            job.setOutputKeyClass(Text.class);
            job.setOutputValueClass(LongWritable.class);
		   // 参数1：逗号分隔，表示输入的文件路径，可指定多个输入文件
            FileInputFormat.addInputPaths(job, args[0]);
		   // 参数2：输出文件路径
            FileOutputFormat.setOutputPath(job, new Path(arg[1]));

            System.exit(job.waitForCompletion(true) ? 0 : 1);
        }
        catch (Exception e)  {
            e.printStackTrace();
        }
    }
}

pom.xml 指定程序的入口

<build>
    <plugins>
        <plugin>
            <groupId>org.apache.maven.plugins</groupId>
            <artifactId>maven-shade-plugin</artifactId>
            <version>3.1.0</version>
            <executions>
                <execution>
                    <phase>package</phase>
                    <goals>
                        <goal>shade</goal>
                    </goals>
                    <configuration>
                        <transformers>
                            <transformer  implementation = "org.apache.maven.plugins.shade.resource.ManifestResourceTransformer">
                                <mainClass>personal.mr.test.Application</mainClass>
                            </transformer>
                        </transformers>
                    </configuration>
                </execution>
            </executions>
        </plugin>
    </plugins>
</build>

程序打包

mvn package

在集群下运行打包好的 jar 文件

hadoop jar word-count-1.0-SNAPSHOT.jar /usr/word.txt /usr/out

等待程序执行完，可查 /usr/out 文件夹下的输出内容

hadoop fs -ls /usr/out
## 利用 cat 来查看文件内容
hadoop fs -cat /usr/out/....

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop 学习笔记

Hadoop - wordCount 实例的相关文章

重新梳理DeepFaceLab（DeepFake）最近动态：简要且全面的信息

DeepFaceLab相关文章一简单介绍DeepFaceLab DeepFake 的使用以及容易被忽略的事项二继续聊聊DeepFaceLab DeepFake 不断演进的2 0版本三如何翻译DeepFaceLab DeepFak
外置USB供电与内置锂电池供电自动切换电路

外置USB供电与内置锂电池供电自动切换电路便携电子设备常用经典电路必须掌握本文要分析的电路很多内置有锂电池的便携电子设备比如手机通常采用这样的供电方式 1 没有插入USB电源时使用内置的锂电池供电 2 当插入USB电源时切换
JAVA体系书籍大全

二哥能不能给一套 Java 电子书的链接啊最好是成体系的我现在就想好好的学习感觉和公司的一些同事差距有点大想追赶上纸质书有点沉天天带在手边很不方便尤其是上下班坐地铁的时候都感觉看纸质书不太好意思电子书不仅携带方便还能不
安装Tensorflow教程

安装Tensorflow教程 1 环境要求 pychon3 5 可以在cmd下查看python3版本号要求必须是3 5以及以上 python3 version Python 3 9 8 2 anaconda安装打开anaconda en
Pyqt5 在线/离线安装教程

在线安装在线安装很简单两行命令搞定 pip3 install PyQt5 pip install PyQt5 tools 如果访问外网不是很顺畅建议使用豆瓣的镜像下载 pip install PyQt5 i https pypi dou
window.open完美替代window.showModalDialog

var url http www baidu com var name 百度 var iWidth 1100 弹窗宽度 var iHeight 700 弹窗高度 var iTop window screen availHeight 30 i
组件化学习-3-源码分析ARouter

之前我们学习了Arouter的使用今天分析下源码实现原理主要分3步生成路由表加载路由表使用路由表生成路由表 RouteProcessor负责生产路由表 ARouter框架使用编译时注解工具 Annotation Processi
【项目：坦克大战】

v1 25 新增功能 1 音效的处理 import pygame time random display pygame display COLOR BLACK pygame Color 0 0 0 COLOR RED pygame Colo
华为OD机试 - 处理器问题（Java）

题目描述某公司研发了一款高性能AI处理器每台物理设备具备8颗AI处理器编号分别为0 1 2 3 4 5 6 7 编号0 3的处理器处于同一个链路中编号4 7的处理器处于另外一个链路中不通链路中的处理器不能通信如下图所示现给定服
msvcp140.dll丢失的详细修复教程

打开电脑上的浏览器在顶部网址栏目输入 dll修复程序 site 然后按下键盘的回车键打开电脑 dll中文简称动态链接库把下载好的修复工具右键压缩文件进行解压操作解压完成打开修复工具修复工具中可以看到修复工具右侧中的检测与修复的项目
etcd 集群搭建及常用场景分析

概述 etcd 是一个分布式一致性k v存储系统可用于服务注册发现与共享配置具有以下优点简单相比于晦涩难懂的paxos算法 etcd基于相对简单且易实现的raft算法实现一致性并通过gRPC提供接口调用安全支持TLS通信并可
项目import其他class类失败，解决办法：清楚缓存

如题今天导入新的项目的时候遇到一些问题这里记录一下 1 问题所有的类都是 java文件而不是 class pom文件全部报错 maven 加载不进来解决一阵排查发现是加载项目的包目录加载错了在最外层打开的导致找不到下级的目录 2
Too many open files的四种解决办法【转】

摘要 Too many open files有四种可能一单个进程打开文件句柄数过多二操作系统打开的文件句柄数过多三 systemd对该进程进行了限制四 inotify达到上限领导见了孔乙己也每每这样问他引人发笑孔乙己自己
opencv-光流法

import numpy as np import cv2 import sys cap cv2 VideoCapture video2 mp4 feature params dict maxCorners 100 qualityLevel
matlab实现三自由度机械臂旋转

matlab实现三自由度的机械臂旋转 1 内容与要求根据表一机械臂长度以及图一机械臂配置为机械臂开发一个控制器使其能够执行特定的任务更具体地说让机械臂的末端执行器移动到特定的点项目要求你的控制器应该能够控制一个3 自由度的机械
《消息队列高手课》缓存策略：如何使用缓存来减少磁盘IO？

现代的消息队列都使用磁盘文件来存储消息因为磁盘是一个持久化的存储即使服务器掉电也不会丢失数据绝大多数用于生产系统的服务器都会使用多块儿磁盘组成磁盘阵列这样不仅服务器掉电不会丢失数据即使其中的一块儿磁盘发生故障也可以把数据从其
解决 windows 下浏览器无法上网，QQ/微信正常上网

解决 windows 下浏览器无法上网 QQ 微信正常上网解决 windows 下浏览器无法解析DNS配置 gt 注意本处只提供一种解决思路并不代表所有问题都能被解决可以尝试一下这种问题一般在浏览器中会直奔主题原因 1 查
计算机视觉（十二）：Mask R-CNN

1 引言 Mask R CNN是在Faster R CNN架构为基础上改进的一种目标检测架构并且能够有效的完成高质量的语义分割 Mask R CNN主要结构如下图所示那我们就来一步步介绍Mask R CNN的部分 2 特征提取方法通过

随机推荐

aps是什么意思_aps是什么意思

aps的意思是 1 美国物理学会全称 American Physical Society 2 人名短语 APS Assembly空气加压系统 APS Automated Packaging Systems自动封装系统例句 1 I re
win10环境下PCL安装和配置回顾（一）

2020年博主有写过几篇关于PCL的博客这边想先回顾下再增加点新内容之前写的博客专栏如下链接 https blog csdn net jiugeshao category 11993239 html spm 1001 2014 300
基于FPGA的频率计设计

文章目录写在前面 1 什么是频率计 2 测量方法与基本原理 3 待测信号如何输入FPGA 一实验程序 1 RTL图 2 Verilog 参考设计 3 指派引脚二调试验证输入不同频率的方波写在前面 1 什么是频率计频率计是一种专
正则表达式用ajax怎么写,使用AJAX（包含正则表达式）验证用户登录的步骤

我们来分一下步骤吧 1 HTML代码页面先写出来 2 正则表达式验证输入的用户名密码是否正确失去焦点验证 3 Ajax异步提交 4 servlet这是后台处理代码获取数据并对比响应然后跳转成功页面效果图结构代码如下 table
TensorFlow 的基本概念和使用场景

TensorFlow 是一个热门的机器学习框架由 Google 开发用于构建和训练神经网络和其他机器学习模型下面是 TensorFlow 的基本概念和使用场景基本概念 1 张量 Tensor 是 TensorFlow 中的基本数据结
防止运营商劫持apk

title 防止运营商劫持apk tags https upyun apk 运营商劫持 categories 工作日志 date 2017 05 25 18 18 56 目前f6部分系统使用了upyun的服务包含apk的下载和静态资源等
Exception常见异常类型和处理机制

Exception 意外异常异常层次结构的父类 Throwable 是异常Exception与Error的父类直接继承自Object Error通常指系统发生的严重性的错误不能通过程序代码解决的问题 Exception异常可以通过修改
在ipad任意界面都可以写字_不再泡面！大学生如何用iPad高效学习

如果你还是一个学生相信平时上课记笔记一定是最头疼的问题平时的笔记期末就不见了等等用电子的方式记录就可以完美解决这个问题而目前比较推崇流行的方式就是使用iPad Apple Pencil的组合书写的感觉也接近纸质但同样的你也需
多层嵌套的 javabean转化为xml时更改嵌套的属性名称时报错重复

我们先来看下报错如果需要给多层嵌套javabean 转化为xml时转化的标签名字不符我们需要该怎么做呢不是多层嵌套的我们可以直接使用 XmlElement name 来进行别名如果多层的话我们则需要给在每个路过的类上都需要加上
公众号H5开发如何在本地调试

1 设置本地hosts的地址映射如blog test com映射127 0 0 1 方法修改hosts的地址映射使域名解析到指定IP 2 配置公众号网页授权获取用户基本信息 3 修改vue配置 vue cli3创建的项目在项目根目录
【PLC 课程设计】花式喷泉

花式喷泉的控制要求按下启动按钮喷泉装置开始工作按下停止按钮喷泉装置停止工作喷泉的工作方式由花式选择开关和单步连续开关决定当单步连续开关在单步位置时喷泉只能按照花样选择开关设定的方式运行一个循环花样选择开关用于选择喷泉的
从零实现DevOps(四)：Jenkins+GitLab自动化部署SpringBoot项目(Jenkins本地环境+Jar包模式)

从前三篇文章中我们已经实现了gitlab jenkins项目的安装与基础配置并且给Centos7操作系统搭配了jdk maven等环境变量从这边文章起从零实现DevOps 系列将正式开始利用Jenkins Gitlab的完美结合
【华为OD统一考试B卷

华为OD统一考试A卷 B卷新题库说明 2023年5月份华为官方已经将的 2022 0223Q 1 2 3 4 统一修改为OD统一考试 A卷和OD统一考试 B卷你收到的链接上面会标注A卷还是B卷请注意根据反馈目前大部分收到的都是
elasticsearch query 要点

查看分析效果 godproduct analyze analyzer ik smart text 雅诗兰黛眼霜简单filter查询 POST myindex mytype search query bool filter term use
常用Web安全扫描工具合集

初入门时喜欢将目标站点直接丢扫描器慢慢等扫描结果极度依赖Web扫描器而有一些漏洞高手善于运用运用各种工具但并不依赖工具经常可以找到扫描工具发现不了的漏洞一款好用的Web扫描器对于白帽子来说就像剑客手中的剑一样重要那么如何
python os.walk不递归_python-os.walk目录递归

递归删除文件或目录递归 os walk 删除目录 shutil rmtree 1 coding UTF 8 2 importos path sys shutil3 4 path H test 5 6 7 for root dirs fil
敏捷之旅大连站2012第一次筹备会议记录

昨天召集了敏捷之旅大连站的几位组织者一起开了一个筹备的讨论会简单记录如下 1 地点的讨论目前有几个地点备选东软会议中心腾飞软件园的会议厅中荷人寿会议室以及酒店综合各种因素包括地点的交通午餐的方便程度场地的大小音响和投影
2.C++设计模式 - 观察者模式

class Observer public 构造 Observer 析构 virtual Observer 更新 virtual void updata class Server private 观察者链表 list
微信多客服如何设置快捷回复（高级玩法总结）

在微信生态使用公众号小程序等同时每天会产生很多重复的咨询如何在微信上实现更高效的快捷回复把常用语回答文档等便捷化标准化对答避免以往的复制粘贴工作方式是我们不得不面对的一个问题应用内回复全应用回复个人回复公共回复快捷
Hadoop - wordCount 实例

hadoop 创建文件夹存放需要被统计的文件 hadoop fs mkdir usr 创建单子文件并写入内容可在网上找几篇英文文章写入 vim word txt 上传到 hdfs hadoop fs put word txt usr 利用

Hadoop - wordCount 实例

Hadoop - wordCount 实例 的相关文章

随机推荐

热门标签

Hadoop - wordCount 实例的相关文章