使用Maven构建Hadoop工程并实现词频统计案例(详细篇)

2023-05-16

使用Maven构建Hadoop工程并实现词频统计案例(详细篇)

文章目录

使用Maven构建Hadoop工程并实现词频统计案例(详细篇)
- - 一、实验环境：
  - 二、使用Maven构建Hadoop工程
  - - 1.解压Maven到自己的安装目录
    - 2.配置Maven环境变量
    - 3.查看maven版本信息
    - 4.使用IDEA创建一个空项目(提前在IDEA中配置Maven)
    - 5.Maven安装目录和仓库地址的设置
  - 三、词频统计案例
  - 四、报错解决
  - - 1.Hadoop：找不到或无法加载主类org.apache.hadoop.mapreduce.v2.app.MRAppMaster
    - 2.INFO ipc.Client: Retrying connect to server: 0.0.0.0/0.0.0.0:8032. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)

在这里插入图片描述

一、实验环境：

Hadoop3.1.3
IDEA
CentOS7.5
Maven3.6.3
伪分布式

二、使用Maven构建Hadoop工程

1.解压Maven到自己的安装目录

tar -zxvf ./apache-maven-3.6.3-bin.tar.gz -C /opt/module/

2.配置Maven环境变量

vim /etc/profile.d/my_env.sh

# JDK_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_212
export CLASSPATH=$:CLASSPATH:$JAVA_HOME/lib/
export PATH=$PATH:$JAVA_HOME/bin

#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

# Set Maven Environment
export MAVEN_HOME=/opt/module/maven-3.6.3
export PATH=$PATH:$MAVEN_HOME/bin

3.查看maven版本信息

mvn -version

4.使用IDEA创建一个空项目(提前在IDEA中配置Maven)

如图：（借用尚硅谷的图）

在这里插入图片描述

5.Maven安装目录和仓库地址的设置

在这里插入图片描述

# 先进入到maven的安装目录
# 修改 settings.xml（核心配置文件）
vim ./conf/settings.xml

# 本地仓库地址更改到/home/zhangsan/LocalRepository，默认在xxx\.m2\repository
<localRepository>/home/zhangsan/LocalRepository</localRepository>

# 配置阿里云镜像（下载速度快）
<mirror>
    <id>nexus-aliyun</id>
    <mirrorOf>central</mirrorOf>
    <name>Nexus aliyun</name>
    <url>http://maven.aliyun.com/nexus/content/groups/public</url>
</mirror>

Maven home directory：可以指定本地 Maven 的安装目录所在。这里不建议使用IDEA默认的。
User settings file / Local repository：我们还可以指定 Maven 的 settings.xml 位置和本地仓库位置。

三、词频统计案例

配置文件：

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>com.zhangsan</groupId>
    <artifactId>MapReduce</artifactId>
    <version>1.0-SNAPSHOT</version>

    <dependencies>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>3.1.3</version>
        </dependency>
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>3.8.2</version>
            <scope>test</scope>
        </dependency>
        <dependency>
            <groupId>org.apache.logging.log4j</groupId>
            <artifactId>log4j-slf4j-impl</artifactId>
            <version>2.12.0</version>
        </dependency>
    </dependencies>

</project>

WordCount案例代码：

Mapper类

Reducer类

在这里插入图片描述

Driver类

在这里插入图片描述

执行Jar包之前要先在HDFS上创建一个文本文件作为词频统计的输入文件

hdfs dfs -mkdir /wcinput

在这里插入图片描述

并创建一个文本文件：word.txt(内容如下)

hello java
hello hadoop
hello mapreduce

在这里插入图片描述

在Hadoop安装目录下执行Jar包(MR的Jar放置在hadoop安装目录下)

hadoop jar ./MapReduce-1.0-SNAPSHOT.jar WordCountDirver /wcinput /wcoutput

执行Jar包的成功运行结果：

在这里插入图片描述

Web端可以查看到成功运行：

在这里插入图片描述

命令行查看/wcoutput的词频统计结果

在这里插入图片描述

四、报错解决

1.Hadoop：找不到或无法加载主类org.apache.hadoop.mapreduce.v2.app.MRAppMaster

在这里插入图片描述

解决方案：

# 输入命令 
hadoop classpath

<!--先输出的结果复制到yarn-site.xml-->
<property>
    <name>yarn.application.classpath</name>
    <value>/opt/module/hadoop-3.1.3/etc/hadoop:/opt/module/hadoop-3.1.3/share/hadoop/common/lib/*:/opt/module/hadoop-3.1.3/share/hadoop/common/*:/opt/module/hadoop-3.1.3/share/hadoop/hdfs:/opt/module/hadoop-3.1.3/share/hadoop/hdfs/lib/*:/opt/module/hadoop-3.1.3/share/hadoop/hdfs/*:/opt/module/hadoop-3.1.3/share/hadoop/mapreduce/lib/*:/opt/module/hadoop-3.1.3/share/hadoop/mapreduce/*:/opt/module/hadoop-3.1.3/share/hadoop/yarn:/opt/module/hadoop-3.1.3/share/hadoop/yarn/lib/*:/opt/module/hadoop-3.1.3/share/hadoop/yarn/*
</value>
</property>

2.INFO ipc.Client: Retrying connect to server: 0.0.0.0/0.0.0.0:8032. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)

在这里插入图片描述

原因是：本人机器采用伪分布式，且选择启动Yarn为MapReduce作业进行资源管理和任务调度，然后机器有没有启动Yarn，从而出错。

解决方案：

start-yarn.sh

Yarn对于分布式模式（真正由多台机器构成的集群环境）才有意义，在伪分布式环境下，Yarn其实是无法真正发挥作用的，因此，在伪分布式环境下不需要借助于Yarn为MapReduce作业进行资源管理和任务调度，而是可以直接借助于Hadoop自身内置的 mapred.LocalJobRunner来为mapReduce作业进行资源管理和任务调度。也就是说，不启动Yarn照样可以运行MapReduce程序。

选择启动Yarn为MapReduce作业进行资源管理和任务调度的设置方式可以参考这一篇文章

解决方案：

start-yarn.sh

Yarn对于分布式模式（真正由多台机器构成的集群环境）才有意义，在伪分布式环境下，Yarn其实是无法真正发挥作用的，因此，在伪分布式环境下不需要借助于Yarn为MapReduce作业进行资源管理和任务调度，而是可以直接借助于Hadoop自身内置的 mapred.LocalJobRunner来为mapReduce作业进行资源管理和任务调度。也就是说，不启动Yarn照样可以运行MapReduce程序。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用Maven构建Hadoop工程并实现词频统计案例(详细篇) 的相关文章

系统调用的概念和作用

一什么是系统调用 xff0c 有何作用 1 概念用户接口命令接口允许用户直接使用程序接口允许用户通过程序间接使用 xff1a 由一组系统调用组成系统调用系统调用是操作系统提供给应用程序 xff08 程序员编程人员 xff
49.在ROS中实现local planner（2）- 实现Purepersuit(纯跟踪)算法

48 在ROS中实现local planner xff08 1 xff09 实现一个可以用的模板实现了一个模板 xff0c 接下来我们将实现一个简单的纯跟踪控制 xff0c 也就是沿着固定的路径运动 xff0c 全局规划已经规划出路径点 x
计算机操作系统保研面试题整理（自用）

目录 1操作系统 1 什么是操作系统 2 操作系统的作用 3 操作系统的特征 4 进程 4 1 进程的定义 4 2 进程与程序的区别 4 3 进程的状态 5 线程 5 1 线程的定义 5 2 线程的实现方式 5 3 进程与线程的区别 5 4
计算机网络保研面试题整理（自用）

目录计算机网络第一章概述 1 1 协议和服务之间的联系和区别 1 2 计算机网络有哪些层 xff1f 1 3 面向连接的服务以及无连接的服务 1 4 对等层协议栈实体协议概念第二章物理层 2 1 物理层作用 2 2 物理层主要设
数据结构保研面试题整理（自用）

目录第一章绪论 1 1 时间复杂度 1 2 空间复杂度 1 3 数的存储结构 1 4 数的逻辑结构 1 5 用循环比递归的效率高吗 xff1f 第二章线性表 2 1 顺序表和链表的比较 2 2 头指针和头结点的区别 xff1f 第三章栈和
【C语言】宏定义和带参宏定义

宏定义是在编程中经常使用的一个模块 xff0c 其优点在于当写的代码量比较大的时候方便修改检查 xff0c 可以做到改一变百一宏定义宏定义是用宏名来表示一个字符串 xff0c 在宏展开时又以该字符串取代宏名 xff0c 这只是一种简
Bing搜索没法用的解决办法（附Google和edge的详细解决步骤）

文章目录前言Edge浏览器的解决办法Google浏览器的解决办法其他前言从12月16日下午 xff0c bing搜索没法正常使用 xff0c 可能是DNS的污染 xff0c 或被墙等可能 xff0c 以下是解决方案 xff0c 亲测有
嵌入式（九）——Linux开发工具（vim的使用）

文章目录一嵌入式Linux开发系统二 vi vim gvim xff1a 文本编辑器三 vim的使用四 vim替代品一嵌入式Linux开发系统文本编辑器 vim 43 vscode xff08 使用并配置vim 安装及使用插件 4
蓝桥杯之单片机学习（十）——PWM脉宽调制信号的发生与控制

文章目录一训练任务1 1 具体要求二代码展示三一些介绍一训练任务在CT107D单片机综合训练平台上 xff0c 利用PWM脉宽信号实现独立按键S7对L1指示灯亮度变化的控制 1 1 具体要求 PWM脉宽信号的频率为100Hz
2022年五一数学建模竞赛C题

文章目录一熵权法加TOPSIS二 sigmoid与arccot 一熵权法加TOPSIS 为了防止我的遗忘 xff0c 把代码放这里供大家参考第一列为可靠性 xff0c 第二列为故障率 Q 2 61 对故障率进行正向化 MAX 61
智能垃圾桶（七）——SG90舵机的介绍与使用（树莓派pico实现）

文章目录一 SG90舵机的引脚介绍二与pico引脚的对接三舵机的使用原理四 Thonny程序五效果展示一 SG90舵机的引脚介绍舵机上会引出三根线分别是GND 棕色线 VCC 红色线和SIG 黄色线就是地线电源线
基于STM32F1-C8T6无人机（二）——舵机/电调/空心杯电机/飞控/机架/subs接收机/充电器和电池（给出链接和思考）

文章目录一关于电机的选择二关于飞控三看懂原理图的接线四电机和桨叶五机架六 sbus接收机的选择七转向问题八充电器和电池的选择主要参考STM32F103C8T6开发板 43 GY521加速度计模块制作有刷四轴飞控 xff0c
22.IMU和里程计融合

文章目录 1 概述2 96 IMU 96 数据获取2 1 96 PIBOT IMU 96 3 两种融合的方法3 1 一种简单的方法3 2 扩展的卡尔曼滤波 1 概述实际使用中会出现轮子打滑和累计误差的情况 xff0c 这里单单使用编码器得
C++Primer 第五版课后习题答案

一本书的Part I xff08 C 43 43 基础 xff09 是C 43 43 基础 xff0c 必须进行通读掌握这几章有非常多的小细节比较坑爹 xff0c 指针与数组指针与const sizeof 运算符 this指针等等 x
想玩玩ometv了，挑战挑战自己（连不上去的解决方法---苹果和安卓）

文章目录一由来二名称三苹果版本四安卓版本一由来看到一个视频国际连线嗯嗯 xff0c 心动了心动了二名称在评论区找了找 xff0c 是ome tv有安卓和苹果版本三苹果版本直接在appstore搜索ometv就
和一个已经浙大本科毕业，现已年入百万的高管交流，交流时长一小时，看看我们究竟谈了什么?

今天下午进行聊天 xff0c 收获很多 xff0c 在这里进行总结整理 xff0c 也方便日后查看文章目录一读博还是不读博 xff1f x1f914 二 ChatGPT的用途 x1f496 三考研值得去思考择校 x1f4ab 四
《定理篇》高等数学、线性代数、概率统计

文章目录一高等数学 xff08 第7版 xff09 同济大学1 1 高数上1 2 高数下二线性代数 xff08 第六版 xff09 同济大学三概率统计 xff08 第四版 xff09 浙江大学一高等数学 xff08 第7版 x
蓝桥杯之单片机学习（终）——关于之前文章的错误及更正（附：第十四届蓝桥杯单片机赛题）

文章目录零吐槽一关于自创模板 xff0c 和自写模板库的问题二关于 96 详解A D D A PCF8591 96 这篇文章一些小错误三模板最终版本main cds1302 hds1302 conewire honewire ci
【缺陷管理】12：BUG背后的故事——缺陷技能提升

如果别人发现一个bug xff0c 自己却没有发现 xff0c 这个是为什么 xff1f 是靠运气如果自己发现一个bug xff0c 别人没有发现 xff1f 是运气 xff0c 还是另有一番玄机 xff1f 感觉背后隐隐约约有一些思考的
对于异步编程的使用方法的整理

本文是我给自己的学习做的一个总结 xff0c 不保证正确性 xff0c 请读到本文的朋友谨慎参考 xff0c 欢迎交流 xff0c 谢谢明确一个问题 xff1a 61 61 61 61 61 61 61 61 61 61 61 61 61

随机推荐

接上一篇，主要写task的使用，没办法发表后再修改搞不好就把文本丢了

3 类 Task 参考资料 xff1a 百度安全验证请高手们说说Task和Thread的区别百度知道面试必备 xff1a 请问C 中Task和Thread有区别吗 xff1f 如果有请简述区别 Run task与thread的区别和使
async/await的学习笔记

1 saycn和await的定义资料 xff1a https www jb51 net article 237968 htm await operator C reference Microsoft Docs async C Refere
基于库函数的stm32单片机的外设使用

本文用于自己的学习记录 xff0c 欢迎交流 1 stm32单片机的外设 STM32单片机有很多外设 xff0c 这里进行一下整理 xff0c 常用的外设有GPIO AFIO EXTI NVIC 在stm32技术手册中可以知道这些外设的位置
eclipse在导入一个Web项目后，配置好Tomcat发现项目打红叉，而WebContent和其他内容没有错误，但是右键run并没有run on Server。

eclipse在导入一个Web项目后 xff0c 配置好Tomcat发现项目打红叉 xff0c 而WebContent和其他内容没有错误 xff0c 但是右键run并没有run on Server 问题描述 xff1a eclipse在导入
23.IMU和里程计融合与单独编码器里程计的对比测试

里程计直接会作为建图或者导航的时候的输入 xff0c 所以起着至关重要的做 xff0c 准确性直接影响建图和导航的效果单独使用轮子编码器得到的里程计与融合了IMU数据的里程计最终效果如何 xff0c 我们这里做个测试来对比下有2种方式测
IDEA的Web项目启动Tomcat出现404错误

IDEA的Web项目启动Tomcat出现404错误 Web项目输出路径 xff1a chapter1 Web exploded 先启动Tomcat xff0c 然后就出现404错误 xff08 如下图所示 xff09 xff0c 启动Tom
彻底卸载Google Chrome

彻底卸载Google Chrome 参考链接 https jingyan baidu com article ea24bc39ffb699da63b33147 html 在删除到注册表的时候 xff0c HKEY LOCAL MACHINE
蓝桥杯JavaB组2013年

蓝桥杯JavaB组 2013年 3 振兴中华入门dfs span class token comment 题目描述 xff1a 小明参加了学校的趣味运动会 xff0c 其中的一个项目是 xff1a 跳格子地上画着一些格子 xff0c 每
Ubuntu的ssh免密登录出现错误

Ubuntu的ssh免密登录出现错误 sign and send pubkey signing failed agent refused operation 错误如下 xff1a sign and send pubkey signing f
OracleVirtualBox界面太小，操作界面对用户不友好？如何使得界面最大化且方便在Windows和Linux环境之间切换应用呢？

OracleVirtualBox界面太小 xff0c 操作界面对用户不友好 xff1f 如何使得界面最大化且方便在Windows和Linux环境之间切换应用呢 xff1f 写在前面 xff0c 个人记录学习笔记仅供参考 xff01 xff
flume报错java.net.ConnectException: 拒绝连接；

flume报错记录 java net ConnectException 拒绝连接 For more details see http wiki apache org hadoop ConnectionRefused 文章目录具体信息解决方
虚拟机在桥接模式下，A类IP地址访问不了外网，C类则可以

虚拟机在桥接模式下 xff0c A类IP地址访问不了外网 xff0c C类则可以写在前面 xff0c 个人学习记录 xff0c 有错误请指正 xff01 Ubuntu网络选择 NAT和桥接网卡模式的区别一 NAT模式 xff1a 特点
Java项目——云R记

Java入门级项目云R记文章目录 Java入门级项目云R记 1 项目介绍 2 需求分析 3 环境搭建 3 1 创建项目 3 2 分层思想 3 3 数据库连接 3 4 单元测试 3 5 使用日志 4 用户模块 5 类型模块 6 云记模块
Linux安装Eclipse

Linux安装Eclipse 文章目录 Linux安装EclipseEclipse国内镜像 Eclipse国内镜像中国科学技术大学 xff1a http mirrors ustc edu cn eclipse eclipse downlo
HDFS 自定义实现函数将文件追加到末尾的问题

HDFS 自定义实现函数将文件追加到末尾的问题 xff1a 一实验环境 xff1a Ubuntu16 04Hadoop2 7 1 伪分布式 xff08 只有一个DN xff09 Eclipse 二解决方案 Java代码 xff1a sp
这些年一路相伴的书

这些年 xff0c 四五年而已 xff0c 不多不少 xff0c 也从校园走到了工作岗位 xff0c 变化的环境 xff0c 只是看书习惯依然不变写这个一是做个分享总结 xff0c 二是看到了活动链接 xff0c 好吧 xff0c 不小心
Linux（CentOS7.5）安装IDEA

Linux xff08 CentOS7 5 xff09 安装IDEA 文章目录 Linux xff08 CentOS7 5 xff09 安装IDEA一安装JDK1 先查看Java的版本2 过滤查出openjdk以及版本3 删除openJD
启动hdfs报错：hadoop100 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password)

启动hdfs报错 xff1a hadoop100 Permission denied publickey gssapi keyex gssapi with mic password 文章目录启动hdfs报错 xff1a hadoop100
CentOS7.5配置伪分布式环境

CentOS7 5配置伪分布式环境文章目录 CentOS7 5配置伪分布式环境1 提前安装JDK和Hadoop并配置好环境变量2 修改配置文件3 格式化NameNode4 启动Hadoop5 Web端查看HDFS信息 1 提前安装JDK和
使用Maven构建Hadoop工程并实现词频统计案例(详细篇)

使用Maven构建Hadoop工程并实现词频统计案例详细篇文章目录使用Maven构建Hadoop工程并实现词频统计案例详细篇一实验环境 xff1a 二使用Maven构建Hadoop工程1 解压Maven到自己的安装目录2 配置

使用Maven构建Hadoop工程并实现词频统计案例(详细篇)

使用Maven构建Hadoop工程并实现词频统计案例(详细篇)

文章目录

一、实验环境：

二、使用Maven构建Hadoop工程

1.解压Maven到自己的安装目录

2.配置Maven环境变量

3.查看maven版本信息

4.使用IDEA创建一个空项目(提前在IDEA中配置Maven)

5.Maven安装目录和仓库地址的设置

三、词频统计案例

四、报错解决

1.Hadoop：找不到或无法加载主类org.apache.hadoop.mapreduce.v2.app.MRAppMaster

2.INFO ipc.Client: Retrying connect to server: 0.0.0.0/0.0.0.0:8032. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)

使用Maven构建Hadoop工程并实现词频统计案例(详细篇) 的相关文章

随机推荐

热门标签