hadoop 经典入门wordcount

2023-05-16

/**
* hadoop经典入门wordcount 主要有三大步 1.编写mapper函数 2.编写reducer函数 3.配置
*/
public class WordCount {
/**
* mapper类
*
* 这些泛型继承自hadoop自定义的序列化框架Writable
* Hadoop使用自己的序列化框架以减少集群间，网络流量提高性能也可以在这里使用avro的序列化框架
* avro的好处是语言无关，数据人类可读
*/
public static class SplitWordMapper extends Mapper<Object, Text, Text, IntWritable> {

private final static IntWritable one = new IntWritable(1);
private Text word = new Text();
/*
* map函数会多次调用
*/
public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
// StringTokenizer 是按照" "\t\n\r\f这5种情况区分单词的
StringTokenizer itr = new StringTokenizer(value.toString());
while (itr.hasMoreTokens()) {
word.set(itr.nextToken());
// 将映射结果存入上下文对象中
context.write(word, one);
}
}
}

/**
* 一般情况下mapper的输出类型就是reducer的输入类型
*
*/
public static class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
private IntWritable result = new IntWritable();

public void reduce(Text key, Iterable<IntWritable> values, Context context)
throws IOException, InterruptedException {
int sum = 0;
// 统计key相同的单词个数
for (IntWritable val : values) {
// 这个val.get()的返回值就是map中的one所包装的1
sum += val.get();
}
result.set(sum);
context.write(key, result);
}
}

public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
if (otherArgs.length < 2) {
System.err.println("Usage: wordcount <in> [<in>...] <out>");
System.exit(2);
}
Job job = Job.getInstance(conf, "word count");
// 指定jar包类
job.setJarByClass(WordCount.class);
// 指定map类
job.setMapperClass(SplitWordMapper.class);
// 指定combiner类（这个类是指在单个节点完成mapper任务后），是否在mapper的输出端直接进行结果聚合，达到较少集群间网络流量的目的
// 该类的调用次数不确定，可能0，1，2...n次调用，但他不论调用多少次，都不会对最终结果造成影响
// 但是该结果会对mapper的输出结果产生影响，他可以减少shuffle的次数，
// 在本例中可以直接使用reducer函数，在求平均值的情况下，不可以使用
job.setCombinerClass(IntSumReducer.class);
job.setReducerClass(IntSumReducer.class);
// 指定输出kv对类型
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
// 这里没有指定输出文件的类型，默认使用TextOutputFormat
for (int i = 0; i < otherArgs.length - 1; ++i) {
FileInputFormat.addInputPath(job, new Path(otherArgs[i]));
}
FileOutputFormat.setOutputPath(job, new Path(otherArgs[otherArgs.length - 1]));
System.exit(job.waitForCompletion(true) ? 0 : 1);
}

}

打成jar包

放到hadoop集群运行

jar包mainclass

Hadoop运行命令

hadoop jar word.jar input/3.txt output

输出目录：

结果：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

hadoop 经典入门wordcount 的相关文章

微信小程序学习第九课：总结JS页面 radio （单选）向后台传值

1 data里增加 dengji 0 dengjiitems name 34 优 34 value 34 1 34 name 34 良 34 value 34 0 34 34 checked 34 39 true 39 name 34 中
微信小程序WXSS加虚线

cartLeft width 50 height 100rpx border right 1rpx dashed a7a8a8
没见过这么恶心的，钉钉开发同一个ip只能被一个企业使用

关键是把另外一个企业的IP改了 xff0c 还是提示 xff01 同一个ip只能被一个企业使用创建企业自建应用 xff0c 提示同一个ip只能被一个企业使用 xff0c 请您参考以下内容确认 xff1a 1 如果是授权定制服务商开发的应
Workbench的服务器公网白名单:

登录名称 Administrator 64 139 196 54 95 3389 实例id i uf6exzqcieg2y4tvzly1 实例名称 launch advisor 20200109 登录实例失败 xff0c 原因连接实例 i
【PHP】使用mpdf生成pdf文件

本文主要需求是将html页面转换为pdf文档 1 安装mpdf工具类 xff08 composer方式 xff09 composer require mpdf mpdf 8 0 3 2 控制器里调用 lt php public functi
ubuntu2004安装cuda11.7+cuDNN8.6 deb版本

ubuntu2004安装cuda11 7 43 cuDNN8 6 deb版本 1 显卡驱动安装1 1查看驱动版本 2 安装cuda2 1安装前检查2 2下载CUDA11 72 3安装2 4设置环境变量2 5检测 3 cuDNN安装3 1下载
FastAdmin 插件离线安装不成功的原因

离线安装 1 xff09 登录后台进入插件管理 xff0c 选择本地安装或者是离线安装 2 xff09 安装时会进行压缩包验证版本依赖判断 xff0c 提升从官网下载压缩包 3 xff09 绕过判断 xff0c 直接安装的方式 xff
微擎手机端传图总是提示4M限制修改

app resource js app util js 这个文件里 fileSizeLimit 4194304 fileSingleSizeLimit 4194304 4194304最后加一个0就变40M了 4 1024 1024 61 4
数学中的特殊符号

正负号 xff1a 加号 xff1a 43 减号 xff1a 百分号 xff1a 等号 xff1a 61 a a xff0f b 61 a b a 0b xfe65 0 ab 61 a b a 0b 0 i 61 1 x 2 这个是x的2次
Ubuntu+ROS+opencv4.3.0 修改cv_bridge配置文件，解决ROS与opencv版本冲突问题

Ubuntu18 04 43 ROS melodic 43 opencv4 3 0 修改cv bridge配置文件 xff0c 解决ROS使用不同版本opencv的冲突问题在ros下使用opencv读取图像话题时 xff0c 在OpenC
Highcharts 柱状图不显示0

Highcharts 柱状图显示0值会给人造成误解 xff0c 毕竟0值和空值是两个结果解决方案 xff1a 将数据源 0值替换为null
FastReport模板字段为Null却显示0 ；以及0被隐藏、不显示的解决方法

FastReport模板字段为Null却显示0 以及0被隐藏不显示的解决方法字段为Null 不默认显示0 取消勾选后 xff0c null就不会显示0 数值0不隐藏调整 xff1a 属性 HideZeros False xff0c 0
ASP.NET控件FileUpload实现Excel文件内容上传到数据库

实现思路 xff1a Excel的内容并不可以直接上传到数据库 xff0c 所以先将Excel内容读取出来转化为DataSet xff0c 然后可以得到DataTable xff0c 遍历每一行 xff0c 存到数据库里就好了前台只放了两
Echarts折线图平滑问题

Echarts3 0官网上的折线图不够平滑 xff0c 有棱角看着不舒服 xff08 个人感觉 xff09 xff0c 解决办法 xff1a 增加一个属性 smooth true name 39 最高气温 39 type 39 line
Visual Studio 附加到进程调试找不到问w3wp.exe的解决办法

1 在IIS中部署好站点 xff0c 确保有一个应用程序池在跑 2 设置好断点后 xff0c 调试 gt 附加到进程 xff0c 勾选显示所有用户的进程 xff0c 在英文输入法的状态下 xff0c 按下 W 键 xff0c 快速找到 w
DIV鼠标悬停显示文字

最简洁的办法是加一个 title属性 lt div title 61 34 停止回放 34 gt lt div gt
OpenCV：多线程加速的多尺度模板匹配

OpenCV中的模板匹配 matchTemplate 一直被诟病 xff0c 原因是不能多尺度识别且不能旋转识别 xff0c 后者比较复杂 xff0c 这里只讨论前者网上多数示例都是从一张图上截取一个目标 xff0c 然后进行匹配识别 x
如何快速转载CSDN中的博客

以下内容转载自 https blog csdn net zhongjianblackberry article details 79456338 在参考如何快速转载CSDN中的博客后 xff0c 由于自己不懂html以及markdown
5680在网设备开启端口聚合不断网的方法----我测试不断网

在5680T做双端口聚合上行的时候 xff0c 要先给正在使用的端口开启端口聚合比如目前使用0 19 0 端口千兆上行 xff0c 计划将0 19 0 和0 19 1的2个端口做端口聚合 xff0c 然后双千兆上行网上查的说是直接输入
正则表达式：(?:) 或 .*? 或 .+?

一这个代表不捕获分组比较 X 和 X xff0c 前者是捕获分组 xff0c 后者不捕获 xff0c 区别在于正则表达式匹配输入字符串之后所获得的匹配的 xff08 数 xff09 组当中没有 X 匹配的部分 xff1b 例如 xff1

随机推荐

Maven 多个war项目的引用关系 overlay配置实例

在Maven项目中 xff0c 一般是jar文件的依赖 xff0c 但是也要考虑一种情况 xff0c 那就是war项目的依赖比如说base war项目包含基本的网页 xff0c 但是需要为另外有一个定制的war项目有几个页面是需要特别定制
NVIDIA CUDA, CUDNN, MATLAB配置

64 NVIDIA 深度学习环境配置配置NVIDIA GPU以支持MATLAB等计算平台进行并行计算 NVIDIA NVIDIA 支持并行计算 xff0c 可提高深度学习的计算效率从硬件到软件的链条是 xff1a NVIDIA GPU
OAuth2.0四种授权模式以及Oauth2.0实战

OAuth2 0四种授权模式以及Oauth2 0实战首先我们得了解什么是Oauth2 0 xff0c 简单来说Oauth2 0它是一个授权协议我们可能会听说过 xff0c 使用Oauth2 0来实现单点登录SSO xff0c 以及第三方
firewalld-cmd简介

firewalld是centos7的一大特性 xff0c 最大的好处有两个 xff1a 支持动态更新 xff0c 不用重启服务 xff1b 第二个就是加入了防火墙的 zone 概念 firewalld有图形界面和工具界面 xff0c 由于我
hdfs创建文件夹及目录

span class token keyword import span java span class token punctuation span io span class token punctuation span IOExcep
auto.js 入门学习（参考GitHub文档）

GitHub开发文档 input span class token punctuation span span class token punctuation span i span class token punctuation span
python-名片管理系统

span class token builtin class name shift span 43 F6 重命名当修改变量名或者函数名是十分实用 from learn card manage span class token functi
【linux】清理pip空间缓存

输入命令查看内存使用情况 xff1a df h 发现 dev sda6 这个目录下可使用内存基本上没有了 xff0c 先需要对其进行清理缓存切换到pip目录下 cd cache pip 为了防止直接删除出错 xff0c 先将要删除的文件复
YOLOv5 - AssertionError: Image not Found

出现上图原因是val 路径还有中文 xff0c cv imread 不能识别解决方法 xff1a 1 修改还有中文的文件名 2 使用绝对路径 xff0c 把测试图片放在含有中文的文件里面下图的名称也无法读取 xff0c 可能是含有 xf
机器学习-猫狗识别（入门案例）

案例分析 xff1a 下载猫狗图片 xff0c 进行分类对数据进行分类 xff0c 训练集和测试集训练集和测试集都进行命名规范 xff0c 把猫标记为1 xff0c 狗标记为0 处理流程 xff1a 数据处理 xff0c 把数据处理为6
车牌识别之预处理（灰度化，去噪，二值化，分割）

灰度化灰度即R 61 G 61 B 二值化只取255 0 对图片进行灰度化处理 xff0c 目的是 1 减少数据量 xff08 减少不明显 xff09 2 为二值化准备对数据进行灰度发现数据量减少并不明显尤其是最大和平均灰度法
failed to solve with frontend dockerfile.v0: failed to create LLB definition: failed to do request

问题描述 failed to solve with frontend dockerfile v0 failed to create LLB definition failed to span class token keyword do s
LeTeX 快速入门

LeTeX 快速入门官方链接什么是LeTeX LaTeX是一种用于排版专业外观文档的工具然而 xff0c LaTeX的操作模式与您可能使用过的许多其他文档制作应用程序 xff08 如Microsoft Word或LibreOffice
医学图像挑战

标题标签不平衡挑战方法一 xff1a 二元交叉熵损失函数方法二 xff1a 重新采用达到类别平衡过采样欠采样多任务挑战设置不同任务的损失函数数据集大小挑战迁移学习神经网络的早期层捕获可归一化的低级图像特征 xff08 图像
医学图像数据集的挑战

患者数据重叠 xff1a 当患者存在多个不同数据时划分数据集应避免随机划分 xff0c 避免同一个患者的数据出现在训练集 xff0c 验证集 xff0c 测试集使用按患者划分数据集根据合理集采用 xff1a 测试集或者验证出现数据不平衡
Ubuntu 查看磁盘空间大小命令

http blog sina com cn s blog 6432901c0100w0tz html Df命令是linux系统以磁盘分区为单位查看文件系统 xff0c 可以加上参数查看磁盘剩余空间信息 xff0c 命令格式 xff1a df
蜂鸣器发声音频率

蜂鸣器发声音频率蜂鸣器发声音频率 1 200Hz声音很小 200 300有声音 400嘟 500滴 600音调变高 700音调变高 800音调变高 2730Hz适合做滴的一声 3000最剌耳声音大转载 http blog ednchi
应对不明确的项目需求

今天在Javaeye上看到一个抱怨客户的无底洞需求时 xff0c 一个网友的回复 xff0c 觉得不错 xff0c 对以后自己接项目做个警示 xff1a From http www javaeye com topic 180477 61 6
基于51单片机的波形发生器（四种波形）(毕业设计资料)

四种波形的产生 xff0c 包括锯齿波三角波方波正弦波通过LCD液晶显示当前波形以及波形的频率可以通过按键切换波形 xff0c 并可以通过按键进行设置当前波形的频率大小 xff0c 也可以设置频率设置不步进值资料从主页链接中进行
hadoop 经典入门wordcount

hadoop经典入门wordcount 主要有三大步 1 编写mapper函数 2 编写reducer函数 3 配置 public class WordCount mapper类这些泛型继承自hadoop自定义的序列化框架Writable

hadoop 经典入门wordcount

hadoop 经典入门wordcount 的相关文章

随机推荐

热门标签