hadooppython编程_一起学Hadoop——使用IDEA编写第一个MapReduce程序(Java和Python)

2023-05-16

上一篇我们学习了MapReduce的原理，今天我们使用代码来加深对MapReduce原理的理解。

wordcount是Hadoop入门的经典例子，我们也不能免俗，也使用这个例子作为学习Hadoop的第一个程序。本文将介绍使用java和python编写第一个MapReduce程序。

本文使用Idea2018开发工具开发第一个Hadoop程序。使用的编程语言是Java。

打开idea，新建一个工程，如下图所示：

在弹出新建工程的界面选择Java，接着选择SDK，一般默认即可，点击“Next”按钮，如下图：

在弹出的选择创建项目的模板页面，不做任何操作，直接点击“Next”按钮。

输入项目名称，点击Finish，就完成了创建新项目的工作，我们的项目名称为：WordCount。如下图所示：

添加依赖jar包，和Eclipse一样，要给项目添加相关依赖包，否则会出错。

点击Idea的File菜单，然后点击“Project Structure”菜单，如下图所示：

依次点击Modules和Dependencies，然后选择“+”的符号，如下图所示：

选择hadoop的包，我用得是hadoop2.6.1。把下面的依赖包都加入到工程中，否则会出现某个类找不到的错误。

(1)”/usr/local/hadoop/share/hadoop/common”目录下的hadoop-common-2.6.1.jar和haoop-nfs-2.6.1.jar；

(2)/usr/local/hadoop/share/hadoop/common/lib”目录下的所有JAR包；

(3)“/usr/local/hadoop/share/hadoop/hdfs”目录下的haoop-hdfs-2.6.1.jar和haoop-hdfs-nfs-2.7.1.jar；

(4)“/usr/local/hadoop/share/hadoop/hdfs/lib”目录下的所有JAR包。

工程已经创建好，我们开始编写Map类、Reduce类和运行MapReduce的入口类：

JAVA编写MarReduce代码

Map类如下：

1 importorg.apache.hadoop.io.IntWritable;2

3 importorg.apache.hadoop.io.LongWritable;4

5 importorg.apache.hadoop.io.Text;6

7 importorg.apache.hadoop.mapreduce.Mapper;8

9 importjava.io.IOException;10

12 public class WordcountMap extends Mapper{13 public void map(LongWritable key,Text value,Context context)throwsIOException,InterruptedException{14

15 String line = value.toString();//读取一行数据

17 String str[] = line.split("");//因为英文字母是以“ ”为间隔的，因此使用“ ”分隔符将一行数据切成多个单词并存在数组中

19 for(String s :str){//循环迭代字符串，将一个单词变成形式，及

20 context.write(new Text(s),new IntWritable(1));21 }22 }23 }

Reudce类：

1 importorg.apache.hadoop.io.IntWritable;2 importorg.apache.hadoop.mapreduce.Reducer;3 importorg.apache.hadoop.io.Text;4 importjava.io.IOException;5

6 public class WordcountReduce extends Reducer{7 public void reduce(Text key, Iterable values,Context context)throwsIOException,InterruptedException{8 int count = 0;9 for(IntWritable value: values) {10 count++;11 }12 context.write(key,newIntWritable(count));13 }14 }

入口类：

1 importorg.apache.hadoop.conf.Configuration;2 importorg.apache.hadoop.fs.Path;3 importorg.apache.hadoop.mapreduce.Job;4 importorg.apache.hadoop.mapreduce.lib.input.FileInputFormat;5 importorg.apache.hadoop.mapreduce.lib.output.FileOutputFormat;6 importorg.apache.hadoop.util.GenericOptionsParser;7 importorg.apache.hadoop.io.IntWritable;8 importorg.apache.hadoop.io.Text;9

10 public classWordCount {11

12 public static void main(String[] args)throwsException{13 Configuration conf = newConfiguration();14 //获取运行时输入的参数，一般是通过shell脚本文件传进来。

15 String [] otherArgs = newGenericOptionsParser(conf,args).getRemainingArgs();16 if(otherArgs.length < 2){17 System.err.println("必须输入读取文件路径和输出路径");18 System.exit(2);19 }20 Job job = newJob();21 job.setJarByClass(WordCount.class);22 job.setJobName("wordcount app");23

24 //设置读取文件的路径，都是从HDFS中读取。读取文件路径从脚本文件中传进来

25 FileInputFormat.addInputPath(job,new Path(args[0]));26 //设置mapreduce程序的输出路径，MapReduce的结果都是输入到文件中

27 FileOutputFormat.setOutputPath(job,new Path(args[1]));28

29 //设置实现了map函数的类

30 job.setMapperClass(WordcountMap.class);31 //设置实现了reduce函数的类

32 job.setReducerClass(WordcountReduce.class);33

34 //设置reduce函数的key值

35 job.setOutputKeyClass(Text.class);36 //设置reduce函数的value值

37 job.setOutputValueClass(IntWritable.class);38 System.exit(job.waitForCompletion(true) ? 0 :1);39 }40 }

代码写好之后，开始jar包，按照下图打包。点击“File”，然后点击“Project Structure”，弹出如下的界面，

依次点击"Artifacts" -> "+" -> "JAR" -> "From modules with dependencies"，然后弹出一个选择入口类的界面，选择刚刚写好的WordCount类，如下图：

按照上面设置好之后，就开始打jar包，如下图：

点击上图的“Build”之后就会生成一个jar包。jar的位置看下图，依次点击File->Project Structure->Artifacts就会看到如下的界面：

将打好包的wordcount.jar文件上传到装有hadoop集群的机器中，然后创建shell文件，shell文件内容如下，/usr/local/src/hadoop-2.6.1是hadoop集群中hadoop的安装位置，

1 /usr/local/src/hadoop-2.6.1/bin/hadoop jar wordcount.jar \ #执行jar文件的命令以及jar文件名，2

3 hdfs://hadoop-master:8020/data/english.txt \ #输入路径

5 hdfs://hadoop-master:8020/wordcount_output #输出路径

执行shell文件之后，会看到如下的信息，

上图中数字1表示输入分片split的数量，数字2表示map和reduce的进度，数字3表示mapreduce执行成功，数字4表示启动多少个map任务，数字5表示启动多少个reduce任务。

自行成功后在hadoop集群中的hdfs文件系统中会看到一个wordcount_output的文件夹。使用“hadoop fs -ls /”命令查看：

在wordcount_output文件夹中有两个文件，分别是_SUCCESS和part-r-00000，part-r-00000记录着mapreduce的执行结果，使用hadoop fs -cat /wordcount_output/part-r-00000查看part-r-00000的内容：

可以每个英文单词出现的次数。

至此，借助idea 2018工具开发第一个使用java语言编写的mapreduce程序已经成功执行。下面介绍使用python语言编写的第一个mapreduce程序，相对于java，python编写mapreduce会简单很多，因为hadoop提供streaming，streaming是使用Unix标准流作为Hadoop和应用程序之间的接口，所以可以使用任何语言通过标准输入输出来写MapReduce程序。

Python编写MapReduce程序

看代码：

实现了map函数的python程序，命名为map.py：

1 #!/usr/local/bin/python

3 import sys #导入sys包

5 for line in sys.stdin: #从标准输入中读取数据

6 ss = line.strip().split(' ')#读取每一行数据，strip()函数过滤掉空格换行的字符，split(' ')分隔出每个额单词并存放在数组ss中

8 for s in ss: #读取数组ss中的每个单词

9 if s.strip() != "":10 print "%s\t%s" % (s, 1)#构造以单词为key，1为value的键值对，并写入到标准输出中。

实现了reduce函数的python程序，命名为reduce.py:

1 importsys2 cur_word =None3 sum =04 for line insys.stdin:5 ss = line.strip().split('\t')#从标准输入中读取数据。

6 if len(ss) != 2:7 continue

8 word,cnt =ss9 if cur_word ==None:10 cur_word =word11 #因为从map流转到reduce的数据时按照key排好序的，cur_word记录的是上一个单词，word记 #录的是当前读取的单词，如果两个单词一致，则将sum+1，否则将word和sum值组成一个键值对，##写入到标准输出，同时sum赋值为0，并且将word赋值给cur_word变量。

12 if cur_word !=word:13 print '\t'.join([cur_word,str(sum)])14 cur_word =word15 sum =016 sum +=int(cnt)17 print '\t'.join([cur_word,str(sum)])

map和reduce程序已经编写完毕，下面编写shell脚本文件：

1 HADOOP_CMD="/usr/local/src/hadoop-2.6.1/bin/hadoop"

2 STREAM_JAR_PATH="/usr/local/src/hadoop-2.6.1/share/hadoop/tools/lib/hadoop-streaming-2.6.1.jar"

4 INPUT_FILE_PATH_1="/data/english.txt"#输入路径5 OUTPUT_PATH="/wordcount_output"#输出路径6 $HADOOP_CMD fs -rmr -skipTrash $OUTPUT_PATH#每次执行时都删除输出路径，否则会出错7

8 $HADOOP_CMD jar $STREAM_JAR_PATH \9 -input $INPUT_FILE_PATH_1 \#指定输入路径10 -output $OUTPUT_PATH \#指定输出路径11 -mapper "python map.py"\#指定要执行的map程序12 -reducer "python reduce.py"\#指定要执行reduce程序13 -file ./map.py \#指定map程序所在的位置14 -file ./reduce.py#指定reduce程序所在的位置

到此Java和Python编写第一个MapReduce程序已经完成。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

hadooppython编程_一起学Hadoop——使用IDEA编写第一个MapReduce程序(Java和Python) 的相关文章

弯管机编程软件电脑版_菜鸟学C语言电脑版

菜鸟学C语言电脑版是一款主要针对小白打造的C语言学习工具 xff0c 软件汇聚了众多专业的C语言学习课程以及海量习题 xff0c 帮助用户能够快速掌握经典的C语言算法功能介绍将提供的教程进行排序 xff0c 顺序学习C语言课程 xff0
英特尔nuc能代替主机吗_python编程，热度为什么越来越高，python能代替JAVA吗？...

大家好 xff0c 我是你们的软件主讲老师宁彤天 xff0c python编程是这几年刚火起来了 xff0c 这可能是这几年人工智能的普及吧 xff0c 现在是人工智能非python xff0c 没有第二 xff0c 当能其它语言也能实现人
超过20G的文件怎么保存_不使用网盘，不限速快速传输超大文件的方法，网盘限速太狠。良心干货...

日常学习和工作中 xff0c 经常会使用到网盘 xff0c 某度就是其中之一 xff0c 东西上传了是方便 xff0c 保存在云里面 xff0c 但是下载就要命了 xff0c 限速80Kb以下 xff0c 在这个社会谁受得了 xff1f 人
CentOS 7.4升级curl和git到最新版本

CentOS 7 4升级curl和git到最新版本升级curl和git到最新版本 root 64 jenkins yum install y curl devel expat devel gettext devel openssl dev
linux vi输不了,在linux下如何退出vi编辑状态，我输入q不..._网络编辑_帮考网

先按ESC进入Command模式 xff0c 然后输入 xff1a wq xff0c 回车就可以保存并退出了 vi的其他保存退出命令 xff1a w 保存 xff1b w filename 另存为filename xff1b wq 保存并
如何去选取第一批要阅读的论文?_怎样在SSCI期刊上发表论文

1 选题谈到选题 xff0c 就不能不提文献的阅读 xff08 阅读的入门技巧可以参考新功能 xff0c 新体验 xff09 需要关注几类文献 xff0c 第一就是顶级期刊论文 xff0c 比如说上的UTD24以及FT50 xff0c 这
电力拖动自动控制系统与matlab仿真 pdf_无人系统(无人机)基于模型(Simulink/Matlab)的设计方法介绍...

一切可以被控制的对象 xff0c 都需要被数学量化这是笔者从事多年研发工作得出的道理 xff0c 无论是车辆控制 xff0c 机器人控制 xff0c 飞机控制 xff0c 还是无人机控制 xff0c 所有和机械运动相关的控制 xff0c
java实现数据挖掘_数据挖掘Apriori算法的java实现

对于Apriori算法 xff0c Apriori算法是一种挖掘关联规则的频繁项集算法 xff0c 在很多领域中应用广泛它的算法思想是 xff1a 1先找到所有的小频繁项集 xff0c 2然后做连接步骤 xff0c 将小频繁项集拼接作为候
qq 守护进程 android,守护进程

守护进程 1 定义 xff1a 守护进程 xff1a 脱离终端并且在后台运行的进程守护进程脱离终端 xff1a 避免进程在执行过程中的信息在任何终端上显示 xff1b 进程不会被任何终端所产生的终端信息所打断 2 创建步骤 xff1a 创
docker安装指定版本的tag镜像

在docker中安装镜像 xff0c 一般过程是 xff0c docker search 软件名称本文以tomcat为例 xff0c 讲解下载指定版本TAG的jdk 搜索jdk镜像发现只有tomcat xff0c 而如果docker p
shiro-cas------本地配置cas为HTTPS登录

上一篇 xff1a shiro cas 搭建基础cas服务器解决上图所提示的问题 xff08 在本地 xff09 xff0c 需要配置https请求首先给这个服务起个域名 xff1a shiro sso com 配置到本地的host文件
路由器snmp配置_S7503E V7 snmpv3典型组网配置案例（与IMC联动）

组网及说明本案例为S7503E SNMPV3典型组网配置 S7503E 版本信息如下 xff1a code H3C Comware Software Version 7 1 070 Release 7557P03 br br Copyri
windows下配置odbc时userid填什么_详解Linux系统VNC server的安装及配置

概述前段时间有朋友问到vncserver方面的问题 xff0c 所以今天整理了下Linux系统vnc server的安装及简单配置和使用下面基于redhat6操作系统 xff0c 而且前提是yum源已经配好 1 yum安装vnc sev
update set多个字段_同事的一个Update语句，把我坑的够惨的...

最近好几次有开发同学在钉钉上问我 xff0c 比如下图 xff1a 问题归纳起来就是 xff1a 在MySQL里面update一条记录 xff0c 语法都正确的 xff0c 但记录并没有被更新刚遇到这个问题的时候 xff0c 我拿到这条语
WORD如何给公式，图，表标号并自动排序

公式 1 首先在每章的标题插入两个域 xff08 注意每一章都要插入 xff09 将光标指向标题后边 2 插入 xff0c 文档部件 xff0c 域 3 选择Seq xff0c 输入SEQ eq h xff0c 点击确定 xff08 这个表
筛选后的表格如何复制粘贴到不连续的表格内_EXCEL——筛选

EXCEL 筛选的思维导图一使用筛选使用筛选的基本操作打开EXCEL 2016 xff0c 停在要进行筛选数据的任一位置 xff0c 在开始选项卡 xff0c 点击排列与筛选中的筛选 xff08 或者直接Ctrl键 43 Shift
一次函数的斜率公式_一次函数正比例的公式是什么

满意答案 VIVIAN MAY 2013 10 09 采纳率 xff1a 43 等级 xff1a 12 已帮助 xff1a 9004人自变量x和因变量y有如下关系 y 61 kx 43 b k为任意不为零实数 xff0c b为任意实数则
catia装配体怎么把零件旋转180度_Catia实现旋转命令的详细使用方法

Catia有很多办公人员都在使用 xff0c 那么想要实现旋转命令 xff0c 该如何操作呢一起和绿软吧去看看Catia实现旋转命令的详细使用方法吧 xff0c 希望大家喜欢 Catia实现旋转命令的详细使用方法打开Catia xff0
python切片每隔两个取一个_Python2X学习14-python-切片

1 取一个list的部分元素是非常常见的操作 Python提供了切片 Slice 操作符 L 0 3 表示从索引0开始取直到索引3为止但不包括索引3 即索引0 1 2 正好是3个元素如果第一个索引是0 还可以省略也可以从索引1开始
signature=96abf00abefbd91bbcff76a31f772aa2,yarn.lock · recoluan/vuepress2-tailwindcss - Gitee.com

THIS IS AN AUTOGENERATED FILE DO NOT EDIT THIS FILE DIRECTLY yarn lockfile v1 34 64 babel code frame 64 7 0 0 34 version

随机推荐

高性能计算服务器8280,AMD秀实力：第二代霄龙64核性能是英特尔Xeon Platinum8280两倍...

近年来 xff0c AMD的实力有目共睹 xff0c 翻身对于AMD来说已经不是新闻了 xff0c 在今年的台北电脑展上AMD总裁兼CEO苏姿丰表示 xff1a AMD只有一个目标 xff0c 就是要做业界第一 xff01 同时带来的 xf
ppp协议提供服务器,ppp协议 - 作业部落 Cmd Markdown 编辑阅读器

ppp协议 blog 归档网络协议 ppp协议 ppp协议详解 1 概述 ppp协议分为几个部分 xff1a LCP 链路控制协议 NCP 网络控制协议认证协议包括PAP协议和CHAP协议另外还有CCP 压缩控制协议如下图所示 x
编写网页读取服务器数据,七、Next.js，网络获取页面的数据

Next js是一个新的通用JavaScript框架 xff0c 它为基于React和服务器的Web应用提供了一个新的可选方案现在我们知道如何创造一个相当不错的Next js应用程序 xff0c 并获得了Next js路由API的充分优势
mapreduce调优java代码_MapReduce如何调优

Map阶段优化 1 在代码书写时优化 xff0c 如尽量避免在map端创建变量等 xff0c 因为map端是循环调用的 xff0c 创建变量会增加内存的消耗 xff0c 尽量将创建变量放到setup方法中 2 配置调优 xff0c 可以在集
python pandas for循环_python-如何在for循环中在pandas数据框中追加行？

您可能有两个原因在循环中追加行 xff1a 1 添加到现有df xff1b 2 创建新的df 要创建一个新的df xff0c 我认为它有据可查 xff0c 您应该将数据创建为列表 xff0c 然后创建数据框 xff1a cols 61 39
大创项目总结及代码分享---基于单片机的智能窗帘的研究与设计

终于是暑假了 xff0c 开始有点时间了 xff0c 把以前做的一些小东西总结一下 xff0c 其实大创是很早就已经完成了 xff0c 只不过学校一直到四月份才开始验收结题项目比较简单 xff0c 也很方便就能验证功能 xff0c 比较适
linux7连不上putty,Putty连接Centos7各种连不上问题的解决方案

Putty连接Centos7各种连不上问题的解决方案 2019 7 22 在虚拟机 Vmware Workstation 下 xff0c 安装了CentOS7 xff0c 现在想通过SSH工具连接虚拟机中的CentOS7 注意第一步先关闭
c# 串口多线程_STM32的串口通信

在基础实验成功的基础上 xff0c 对串口的调试方法进行实践硬件代码顺利完成之后 xff0c 对日后调试需要用到的printf重定义进行调试 xff0c 固定在自己的库函数中 b 初始化函数定义 xff1a void USART Conf
python画聚类图_使用seaborn绘制聚类热图

在生物信息领域 xff0c 无论是基因芯片 xff0c RNAseq还是其他各种生信分析里面 xff0c 差异基因的寻找总是最基础的工作 xff0c 而热图在差异基因的可视化展示方面占据了独一无二的地位 xff0c 在这里我将介绍如何使用s
win10设置开机启动项_华硕主板如何设置开机第一启动项方法大全

华硕主板 xff0c 调整第一启动顺序有以下三种方式 xff1a 第一种 xff0c 最便捷的临时调整方案 xff0c 适用所有的主板开机按键盘上的F8按键 xff0c 就会出现类似下图这样的提示 xff0c 意思就是让你选择哪个设备作为
python 源码安装教程_python安装步骤

编译安装python3 6的步骤 1 下载python3源码包 2 下载python3编译的依赖包 yum install y gcc patch libffi devel python devel zlib devel bzip2 dev
matlab函数im2bw_图像分割之阈值分割（matlab）

图像分割是一种重要的图像处理的技术对于数字图像 xff0c 我们往往会对他们中的某一部分感兴趣 xff0c 这些部分我们称为前景或者目标 xff0c 其余部分称为背景为了识别和分析图像中的目标 xff0c 我们需要把他们从图像中提取出来
自适应滤波matlab程序_技术研究自然能驱动无人艇融合TD滤波的无模型自适应航速控制方法...

点击标题下无人系统技术可快速关注自然能驱动无人艇融合TD滤波的无模型自适应航速控制方法姜权权 xff0c 李可 xff0c 廖煜雷 xff0c 贾琪 xff0c 李晔 xff0c 苗玉刚哈尔滨工程大学水下机器人技术重点实验室摘
python函数做菜单_学不会的Python函数——函数小案例（名片管理器）

名片管理器是一款生活实用类软件 xff0c 用来协助管理手机中的所有名片为了帮助大家在实际应用中学会选择使用四种类型的函数 xff0c 接下来我们开发一个名片管理器这个案例要求使用函数完成各种功能 xff0c 并且根据键盘的输入来选择对
计算机无法u盘启动,uefi模式下U盘启动不了解决方法

电脑开机有两种方式 xff0c 一种是legacy xff0c 另一种是uefi模式默认都是采用legacy方式 xff0c 也就是传统的BIOS方式 xff0c 这种方式一直广泛使用 xff0c 但逐渐的已经不能适应现在大硬盘的安装模式
中断函数中调用延时会影响其他中断?_C51编程11中断篇（中断原理1）

在前面的IO篇中 xff0c 使用到矩阵键盘与LED xff0c 主函数中对它们的功能函数 xff0c 从而检测矩阵键盘是否被按下 xff0c LED是否需要被点亮如下面的代码所示 xff0c 在循环中 xff0c 不断执行键盘扫描与显示
XManager5连接CentOS7

XManager5连接CentOS6的方法已经行不通了 xff0c 那么如何用XManager5连接CentOS7 从Xmanger官网博客得知 xff1a Gnome in CentOS 7 tries to use local hard
nvm 下载node 下载不下来_nvm下载node时无法下载npm

使用nvm下载node后报错提示程序被占用然后node modules文件夹为空 C Users Administrator gt nvm uninstall 8 12 0 Uninstalling node v8 12 0 done
linux守护进程写法_守护进程是什么？linux创建守护进程的步骤详解

守护进程是什么 xff1f 可能很多伙伴对于守护进程都不怎么了解吧 xff1f 守护进程是操作系统后台的一种特殊进程 xff0c 像Linux系统的大多数服务器都是通过守护进程实现的今天小编就来给大家科普一下什么是守护进程以及linux系
hadooppython编程_一起学Hadoop——使用IDEA编写第一个MapReduce程序(Java和Python)

上一篇我们学习了MapReduce的原理 xff0c 今天我们使用代码来加深对MapReduce原理的理解 wordcount是Hadoop入门的经典例子 xff0c 我们也不能免俗 xff0c 也使用这个例子作为学习Hadoop的第一个程

hadooppython编程_一起学Hadoop——使用IDEA编写第一个MapReduce程序(Java和Python)

hadooppython编程_一起学Hadoop——使用IDEA编写第一个MapReduce程序(Java和Python) 的相关文章

随机推荐

热门标签