【3.2】Hadoop运行模式之（伪分布式运行模式）

2023-10-26

一、启动HDFS并运行MapReduce程序

配置集群
（1）配置：hadoop.env.sh

（2）配置 core-site.xml

（3）配置 hdfs-site.xml
启动集群
（1）格式化 NameNode（第一次启动时格式化，以后就不要总格式化）

（2）启动 NameNode

（3）启动 DataNode
查看集群
(1) 查看是否启动成功

注意：jps是 JDK中的命令不是 Linux命令。不安装 JDK不能使用 jps
(2) web端查看 HDFS文件系统
http://192.168.1.101:50070/dfshealth.html#tab-overview
若不能登陆，检查下防火墙是否关闭。
具体参考如下博文
https://www.cnblogs.com/zlslch/p/6604189.html
（3）思考：为什么不能一直格式化NameNode，格式化 NameNode要注意什么
格式化 NameNode 会产生新的集群 id,导致 NameNode 和 DataNode 的集群 id 不一致，集群找不到已往数据。所以格式NameNode时，一定要先删除data数据和 log日志，然后再格式化 NameNode。
操作集群
（1）在 HDFS文件系统上创建一个 input文件夹
（2）将测试文件内容上传到文件系统上

（3）查看上传的文件是否正确
Web端查看

（4）运行 MapReduce程序
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/atguigu/input/ /user/atguigu/output
（5）查看输出结果
bin/hdfs dfs -cat /user/atguigu/p*
（6）将测试文件内容下载到本地
hdfs dfs -get /user/atguigu/output/part-r-00000 ./wcoutput/
注意：本地的wcoutput中不存在part-r-00000，否则下载后保存不到wcoutput中去。
（7）删除输出结果
hdfs dfs -rm -r /user/atguigu/output

二、启动YARN并运行MapReduce程序

配置集群
（1）配置 yarn-env.sh
配置一下JAVA_HOME：

（2）配置 yarn-site.xml

（3）配置 mapred-env.sh
配置JAVA_HOME

（4）配置 (对 mapred-site.xml.template重新命名为 ) mapred-site.xml
启动集群
（1）启动前必须保证 NameNode和 DataNode已经启动
（2）启动 ResourceManager

（3）启动 NodeManager
集群操作
（1）YARN的浏览器页面查看
http://hadoop101:8088/cluster
（2）删除文件系统上的 output文件
（3）执行 MapReduce程序

（4）查看运行结果

web端：

三、配置历史服务器

为了查看程序的历史运行情况，需要配置一下历史服务器。具体

配置mapred-site.xml
启动历史服务器
查看历史服务器是否启动
查看JobHistory
http://hadoop101:19888/jobhistory

四、配置日志的聚集

日志聚集概念：应用运行完成以后，将程序运行日志信息上传到 HDFS系统上。
日志聚集功能好处:可以方便的查看到程序运行详情，方便开发调试。
注意：开启日志聚集功能需要重新启动 NodeManager 、 ResourceManager和
HistoryManager。

配置yarn-site.xml
关闭NodeManager、ResourceManager和HistoryManager
启动NodeManager、ResourceManager和HistoryManager
删除HDFS上已经存在的输出文件
执行WordCount程序
查看日志
http://hadoop101:19888/jobhistory
(1) job history
(2) job运行情况

(3)查看日志

五、配置文件说明

Hadoop配置文件分两类：默认配置文件和自定义配置文件，只有用户想修改某一默认
配置值时，才需要修改自定义配置文件，更改相应属性值。

默认配置文件
自定义配置文件
core-site.xml、 hdfs-site.xml、 yarn-site.xml、 mapred-site.xml四个配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上用户可以根据项目需求重新进行修改配置。

笔记总结：
在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

【3.2】Hadoop运行模式之（伪分布式运行模式）的相关文章

uni-app自定义组件不能使用v-for解决办法

uni app自定义组件不能使用v for解决办法原文添加链接描述
matlab三维山峰/山脉/山地曲面数据图

matlab三维山峰山脉山地曲面数据图可以使用peaks函数比如直接peaks 80 peaks 80 z 3 1 x 2 exp x 2 y 1 2 10 x 5 x 3 y 5 exp x 2 y 2 1 3 exp x 1 2
前端使用Export2Excel将页面Table中的数据导出为Excel

前端使用Export2Excel将页面Table中的数据导出为Excel 在项目中用于需要将表格中的数据导出为Excel 根据用于自己的表头样式经过千方百计的百度终于找到了这个Export2Excel 插件 1 安装需要以下几个插件
7款超级好用的AI智能工具，功能超越你的想象

分享7个好用的AI智能工具都是日常能够经常用到的有了它们可以大大提高工作学习效率 1 Notion AI AI写作一个AI智能写作在线网站只需要输入关键词就能快速生成一篇文章可以大大提高办公学习效率使用邮箱注册登录之后在右侧点
中input宽度_使用HOG对卫星图像中的船舶进行分类

我在浏览Kaggle数据集时发现了这个有趣的机器学习数据集 https www kaggle com rhammell ships in satellite imagery 该机器学习数据集包括从卫星图像中提取的船舶图像以及一些负面实例查
springboot中Controller层调用service层报错this.service is null

报错信息 2022 10 18 09 11 35 661 ERROR GlobalExceptionHandler java 33 java lang NullPointerException Cannot invoke com yuhen
自动化测试 - Appium + Python史上最全最简环境搭建步骤

一为什么是Appium 借一张图 1 1 Appium优点 l 开源 l 跨架构 NativeApp Hybird App Web App l 跨设备 Android iOS Firefox OS l 不依赖源码 l 使用任何WebDri
windows杀软在线识别平台

前言在内网攻防中当拿到一个对外服务器权限后必不可少的就是要上线MSF或者CS进行内网横移这个时候如果服务器上存在杀软就会影响木马上线几款推荐的杀软在线识别平台 1 https www ddosi org av 1 php 2 h
postman 设置请求编码_在postman脚本中进行urlencode编码

进行urlencode编码在进行接口测试的过程中一部分接口的参数需要做urlencode编码如果将传输的参数直接编码进行发送就无法灵活的修改参数了也不能灵活使用环境变量于是想在postman的Pre request Script
【华为OD统一考试B卷

在线OJ 已购买本专栏用户请私信博主开通账号在线刷题运行出现 Runtime Error 0Aborted 请忽略华为OD统一考试A卷 B卷新题库说明 2023年5月份华为官方已经将的 2022 0223Q 1 2 3 4 统一
APP压力测试之Monkey

文章目录前言第一章概述 1 1 什么是Monkey测试 1 2 Monkey测试的内容是什么 1 3 为什么要进行monkey测试 1 4 Monkey测试的有点是什么有什么缺点第二章环境的搭建 2 1 Android SDK
Angular路由 ng-route和ui-router的区别

什么是路由路由是AngularJS构建单页面应用的基础路由就是网络数据或者请求进行分发的一个网络组件路由就是一个用于请求URL分发和跳转的一个应用组件 Angular中通过 routeProvider路由服务提供者进行核心的配置处理
软件打包成rpm包的方法

01 所用软件打包rpm建议使用fpm软件 fpm软件来源自ruby的生态安装方式如下首先安装ruby的环境 yum install ruby devel gcc make rpm build rubygems 再安装fpm软件 ge
常用的国内 PyPI 镜像

从网上整理一些常用的国内 PyPI 镜像阿里云 https mirrors aliyun com pypi simple 清华 https pypi tuna tsinghua edu cn simple 中国科技大学 https pyp
个人笔记新解-Obsidian

欢迎关注攻城狮Gala 公众号每天一起学习努力成为Web3全栈自己之前一直在使用为知笔记体验越来越糟糕主要有几个原因为知笔记的编辑器很难用尤其是对md的支持很差最近有备份需求但是为知笔记新版本竟然去掉导出文件夹功能
安装 Realtek HD Audio Driver 失败 Error Code : 0xE0000100

更新声卡驱动提示安装Realtek HD Audio Driver失败 Error Code 0xE0000100 错误尝试各种版本驱动无效以下是解决方案 1 下载windows7声卡驱动修复压缩包直接复制以下下载地址下载 http
我是女生，想进入IT行业难吗？

女生进入IT职业真的不难我从事IT职业6年多身边有许多女同事她们工资都非常高她们中有程序员测验人员有技能支持人员有产品司理有项目司理有UI规划师等等她们有的是计算机专业结业的也有非计算机专业结业的虽然她们起点的确不太
fatal: Not a valid object name: ‘master‘.

Git创建分支错误 Administrator DESKTOP RL96PC3 MINGW64 e dd master git branch devfatal Not a valid object name master 原因是因为我们刚
模板方法模式（模板方法设计模式）与回调机制解析

模板方法是什么模板方法模式在一个方法中定义一个算法的骨架将某些步骤推迟到子类中实现模板方法模式可以让子类在不改变算法整体的结构情况下重新定义算法中的某些步骤 public abstract class AbstractClass p
图的基础定义

连通分量相互可达的结点称为一个连通分量割顶删除某个点后使图不再联通桥删除某个边后使图不再联通双连通任意两点之间至少存在两条点不重复的路径此时内部无割顶双连通分量点双连通的一个极大子图 BCC 边双连通分量边

随机推荐

SDMG-R模型学习笔记

商汤出的算法用于关键信息提取 KIE 集成在mmocr包里需要搭配mmcv一起使用本文将结合论文源码对模型结构进行一个梳理题外话 mmcv用了hook编程调试起来还是蛮难的以后有空再分享下mmcv的框架逻辑模型结构整体结构
jira数据迁移过程

jira数据迁移是常见的软件开发过程中遇到的问题在数据迁移过程中下面讲解简单的过程 1 配置好jdk 2 配置好mysql数据库 3 配置好jira 4 在mysql中创建一个数据库必须在创建时设置好数据库的字符集为这个数据库创建一个
web前端入门到实战：CSS3 filter（滤镜）属性

css3的滤镜filter属性可以对网页中的图片进行类似Photoshop图片处理的效果例如背景的毛玻璃效果老照片黑白照片火焰效果等一 blur px 高斯模糊二 brightness 亮度三 contrast 对比度四
通过Visio软件的宏编写Java代码

1 新建Visio文件并打开 2 在开发工具选项卡上单击录制宏 3 操作Visio 如画图画线等 4 点击停止录制 5 点击宏 6 可以查看到VB窗口的代码可以一步步调试根据宏代码尝试编写Java代码一般情况下宏中使用的代
阿里面试题：为什么Map桶中个数超过8才转为红黑树

这是一个好友面试阿里时被问到的一个问题应该不少人看到这个问题都会一面懵逼因为大部分的文章都是分析链表是怎么转换成红黑树的但是并没有说明为什么当链表长度为8的时候才做转换动作第一反应也是一样只能初略的猜测是因为时间和空间的权衡
CloudQuery：更好地管理你的 OceanBase 数据库

前言作为 OceanBase 的生态合作伙伴 CloudQuery 简称 CQ 最新发布的社区版 2 2 0 新增了 OceanBase 数据库为企业使用 OceanBase 数据库提供全面的支持包括连接与认证查询与分析数据安全与
软件测试开发和软件测试有什么区别？

软件测试软件测试是在测试中识别软件产品和服务的准确性和质量的过程显然它的诞生是为了验证产品是否满足客户的特定先决条件和需求在一天的工作结束前确定特定的较终目标并测试执行一个框架或应用程序以指出其错误或缺陷测试的职责是找到b
颜色值透明度的百分数对应十六进制表

目录颜色简介 1 透明度的计算 2 透明度和不透明度的转换 3 透明度对应的十六进制值 4 不透明度对应的十六进制值颜色简介 Android中的颜色值通常遵循RGB ARGB标准使用时通常以字符开头以16进制表示常用的颜色值格式
UDP协议详解

文章目录 UDP概述 UDP主要特点 TCP和UDP区别应用适用场合实际应用代码演示总结 UDP概述 UDP 是User Datagram Protocol的简称中文名是用户数据报协议是OSI Open System Inte
windows11文件夹共享设置如何共享如何访问

一确保文件夹共享相关服务处于启动状态按快捷键Windows R 输入services msc 回车打开服务确保以下服务都开启需要全部开启后才能保证共享正常 1 DNS Client DNS 客户端服务 dnscache 缓存域名系统
使用pip install -r requirements安装库出现的问题

1 问题描述 ERROR No matching distribution found for matplotlib gt 3 2 2 WARNING There was an error checking the latest versi
redis五大数据类型+redis6 新类型（详解+指令）

redis有五大数据类型分别是 1 String 字符串 2 List 列表 3 Set 集合 4 Hash 哈希 5 Zset 有序集合sorted set redis6 三种新数据类型 1 Bitmaps 实现对位的操作以位为单位的数
SpringBoot配置postgre多数据源（亲测有效！！！）

参考 https blog csdn net weixin 43240792 article details 106571925 稍微有一些不一样 pom引用
蓝桥杯试题算法训练最小距离 ( C++ )

最小距离最小距离算法题目算法代码算法的核心思路最小距离算法题目资源限制时间限制 1 0s 内存限制 256 0MB 最小距离问题描述数轴上有n个数字求最近的两个数即min abs x y 输入格式第一行包含一个整数
sEMG项目总结（3）STM32采集肌电信号

STM32采集肌电信号目录 STM32采集肌电信号目录 1采集方式ADCTimerDMA 2采集程序的配置 3对采集的sEMG的分析 4STM32F407源码 1采集方式ADC Timer DMA 1 肌电信号采集板有双通道信号的放大
Linux--文件、进程、fork、open、系统调用、库函数相关知识

目录 1 进程打开文件的流程 2 先打开再fork的流程重点 1 代码演示 2 分析 3 先fork再open 1 代码演示 2 分析 4 fork补充 5 系统调用与库函数的区别 1 进程打开文件的流程 inode 节点存放有关文件的
Vlc.DotNet 视频画面拉伸满整个控件的方法

Vlc DotNet 视频画面拉伸满整个控件的方法引用Vlc DotNet 实现代码实现思路方案对比踩坑记录引用Vlc DotNet 根据官方的例子首先下载VLC 把VLC里面的各种dll拷贝到输出目录里面然后安装Nuget包
如何使用python中读取csv数据文件？读取csv文件的几种方法

1 第一种方法使用csv库打开csv文件然后逐行读取文件内容 import csv filename abc csv with open filename as f reader csv reader f header row nex
常用命令

激活虚拟环境 source bin activate source bashrc source activate py36 source env torch bin activate 查看GPU使用情况 nvidia smi MAC从服务器
【3.2】Hadoop运行模式之（伪分布式运行模式）

一启动HDFS并运行MapReduce程序配置集群 1 配置 hadoop env sh 2 配置 core site xml 3 配置 hdfs site xml 启动集群 1 格式化 NameNode 第一次启动时格式化以后就不要

【3.2】Hadoop运行模式之（伪分布式运行模式）

一、 启动HDFS并运行MapReduce程序

二、 启动YARN并运行MapReduce程序