Hadoop3.2.*安装

2023-11-07

CentOS8系统安装Hadoop-3.2.1伪分布式配置

[TOC]

实验目的

在 Linux（VM15pro/CentOS8）环境下完成Hadoop-3.2.1伪分布式环境的搭建，并运行 Hadoop 自带的 WordCount 实例检测是否运行正常。

一、下载并配置java环境

Java 环境可选择 Oracle 的 JDK，或是 OpenJDK，现在一般 Linux 系统默认安装的基本是 OpenJDK。通过 yum 进行安装 JDK，安装过程中会让输入 [y/N]，输入 y 即可：

[root@localhost ~]# yum install java-1.8.0-openjdk java-1.8.0-openjdk-devel

接着我们需要配置Java的环境变量，打开/etc/profile文件最后面添加如图内容，并让该环境变量生效。

PS:yum 安装的jdk 1.8 的话，默认JAVA_HOME 都是 /usr/lib/jvm/java-1.8.0，总之都是在 /usr/lib/jvm/ 这个目录下

因为yum安装后会自动配置环境变量，所以安装后直接指向javac 或者 Java -version 都是可以的，

但是你会发现 /etc/profile 这个文件中其实是没有JAVA_HOME配置的需要手动配置

# java
export JAVA_HOME=/usr/lib/jvm/java-1.8.0
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib
export PATH=$PATH:$JAVA_HOME/bin

[root@localhost ~]# source /etc/profile

测试Java版本信息，了解环境变量配置是否成功

ps: whereis java 可以查看Java的安装路径

二、下载并解压hadoop安装包

[root@localhost ~]# wget https://mirrors.bfsu.edu.cn/apache/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz
[root@localhost ~]# tar -xzvf hadoop-3.2.1.tar.gz

三、配置环境变量

将hadoop配置写入/etc/profile中，并测试是否配置成功。

vi /etc/profile

# hadoop
export HADOOP_HOME=/home/hzp/software/hadoop/hadoop-3.2.1
export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

四、修改相关配置文件

1、修改 hadoop-3.2.1/etc/hadoop/hadoop-env.sh，

取消并修改添加export JAVA_HOME=，使其值为我们解压出jdk的位置。

vi /etc/hadoop/hadoop-env.sh

# 修改hadoop-env.sh，在最后边添加JAVA_HOME

export JAVA_HOME=/usr/lib/jvm/java-1.8.0

2、修改hadoop-3.2.1/etc/hadoop/core-site.xml

vi core-site.xml

#在configuration标签中添加下面内容

<property>
<name>hadoop.tmp.dir</name>

<value>/home/hzp/software/hadoop/hadoop-3.2.1/tmp</value>
</property>

<property>
   <name>fs.defaultFS</name>
   <value>hdfs://hadoop0:9000</value>
</property>

3、修改hadoop-3.2.1/etc/hadoop/hdfs-site.xml

vi hdfs-site.xml

#在configuration标签中添加下面内容

<property>
   <name>dfs.namenode.http-address</name>
   <value>hadoop0:50070</value>
</property>

<property>
   <name>dfs.replication</name>
   <value>3</value>
</property>

<property>
   <name>dfs.permissions.enabled</name>
   <value>false</value>
</property>

<property>
   <name>dfs.blocksize</name>
   <value>134217728</value>
</property>

4、修改hadoop-3.2.1/etc/hadoop/mapred-site.xml

vi mapred-site.xml

#在configuration标签中添加下面内容

<name>mapreduce.framework.name</name>

</property>

<name>mapreduce.admin.user.env</name>

<value>HADOOP_MAPRED_HOME=/home/hzp/software/hadoop/hadoop-3.2.1</value>

</property>

<name>yarn.app.mapreduce.am.env</name>

<value>HADOOP_MAPRED_HOME=/home/hzp/software/hadoop/hadoop-3.2.1</value>

</property>

5、修改hadoop-3.2.1/etc/hadoop/yarn-site.xml

vi yarn-site.xml

#在configuration标签中添加下面内容

<name>yarn.resourcemanager.hostname</name>

<value>hadoop0</value>

</property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.nodemanager.env-whitelist</name>

<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_HOME,PATH,LANG,TZ</value>

</property>

<name>yarn.nodemanager.vmem-check-enabled</name>

<value>false</value>

</property>

6.编辑集群下的worker 文件

vi hadoop-3.2.1/etc/hadoop/workers

写入两个worker节点

hadoop0 hadoop1 hadoop2

克隆

五、设置ssh免密码登录

执行下面命令检测是否已安装ssh

利用 ssh-keygen 生成密钥，并将密钥加入到授权中，配置成SSH无密码登陆

host配置

修改三台服务器的hosts文件

vim /etc/hosts

#添加下面内容，根据个人服务器IP配置

10.101.18.21 master
10.101.18.8 slave1
10.101.18.24 slave2

免密登陆配置

生产秘钥

ssh-keygen -t rsa

master免密登录到slave中

ssh-copy-id -i ~/.ssh/id_rsa.pub master
ssh-copy-id -i ~/.ssh/id_rsa.pub slave1
ssh-copy-id -i ~/.ssh/id_rsa.pub slave2

测试免密登陆

ssh master 
ssh slave1
ssh slave2

六、开启hadoop

1、格式化NameNode，使用start-all开启所有进程，并且使用jps查看进程情况。

[root@localhost hadoop-3.2.1]# hdfs namenode -format
[root@localhost hadoop-3.2.1]# start-all.sh
[root@localhost hadoop-3.2.1]# jps

2、浏览器进行hadoop服务的访问，http://localhost:9870

七、WordCount 实例检测

1、单机模式读取的是本地数据，伪分布式读取的则是 HDFS 上的数据。要使用 HDFS，首先需要在 HDFS 中创建用户目录，接着将 ./etc/hadoop 中的 xml 文件作为输入文件复制到分布式文件系统中。

2、复制完成后，可以通过如下命令查看 HDFS 中的文件列表：

3、伪分布式读取的是HDFS中的文件，运行 MapReduce 作业

4、将输出文件从分布式文件系统复制到本地文件系统并查看

八、实验过程中报错解决

1、HDFS创建用户目录时报“Name node is in safe mode”，使用下面命令退出安全模式。

2、jps发现DataNode进程没有开启，查看日志发现报没法找到/dfs/data目录，造成原因是在每次执行hadoop namenode -format时，都会为NameNode生成namespaceID,，但是在hadoop.tmp.dir目录下的DataNode还是保留上次的namespaceID，因为namespaceID的不一致，而导致DataNode无法启动，解决方法如下：

3、jps发现NameNode进程没有开启，日志报错是/tmp/hadoop-hadoop/dfs/name目录不存在或目录不可访问，解决方法是重新格式化文件系统如下：

HADOOP_HOME/sbin/stop-all.sh  			#先停止hadoop相关进程
HADOOP_HOME/bin/hdfs namenode -format 	#重新格式化文件系统
HADOOP_HOME/sbin/start-all.sh 			#重启hadoop，此时hadoop的相关进程正常启动

4、要是上面情况出现依次走到这里，又发现jpsDataNode进程没有开启，这时候删掉/dfs/data文件，重启服务就行。

5、运行wordcount报错找不到或无法加载主类，设置classpath，重启yarn服务，具体如下：

九、参考目录

[https://www.cnblogs.com/hanhaotian/p/11754393.html]:

[https://blog.csdn.net/weixin_49736959/article/details/108815976]:

[https://blog.csdn.net/haveqing/article/details/106006860]:

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

Hadoop3.2.*安装的相关文章

Hadoop 上的 Sqoop：NoSuchMethodError：com.google.common.base.Stopwatch.createStarted() [重复]

这个问题在这里已经有答案了我在 Google Cloud DataProc 上的 hadoop 上运行 sqoop 以通过 Cloud SQL 代理访问 postgresql 但遇到 Java 依赖项错误 INFO First Cloud
Spark on Hive SQL 查询错误 NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT

针对 Hive 2 1 0 提交 Spark 1 6 0 SQL 应用程序时出现错误 Exception in thread main java lang NoSuchFieldError HIVE STATS JDBC TIMEOUT a
Hive：在查询中将 array 转换为 array

我有两张桌子 create table a 1 array
是否可以使用 Java 读写 Parquet，而不依赖 Hadoop 和 HDFS？

我一直在寻找这个问题的解决方案在我看来如果不引入对 HDFS 和 Hadoop 的依赖就无法在 Java 程序中嵌入读写 Parquet 格式它是否正确我想在 Hadoop 集群之外的客户端计算机上进行读写我开始对 Apache
Python 包安装：pip 与 yum，还是两者一起安装？

我刚刚开始管理 Hadoop 集群我们使用 Bright Cluster Manager 直至操作系统级别 CentOS 7 1 然后使用 Ambari 以及适用于 Hadoop 的 Hortonworks HDP 2 3 我不断收到安装
为什么我们需要将外部表移动到托管 Hive 表？

我是 Hadoop 新手正在学习 Hive 在 Hadoop 权威指南第 3 版中第 12 页第428章最后一段我不明白下面关于 HIVE 中外部表的段落一种常见的模式是使用外部表访问存储在 HDFS 中的初始数据集由另一个进
Impala：如何查询具有不同模式的多个镶木地板文件

在 Spark 2 1 中我经常使用类似的东西 df spark read parquet path to my files parquet 即使具有不同的模式也可以加载镶木地板文件的文件夹然后我使用 SparkSQL 对数据帧执行一些
在 Google Cloud Dataproc 环境中使用 Hadoop 流式处理运行 python map reduce 作业时出错

我想使用 hadoop 流方法在 Google Cloud Dataproc 中运行 python map reduce 作业我的map reduce python脚本输入文件和作业结果输出位于Google Cloud Storage中
AWS EMR 引导操作为 sudo

我需要更新 etc hosts适用于我的 EMR 集群 EMR AMI 4 3 中的所有实例整个脚本无非就是 bin bash echo e ip1 uri1 gt gt etc hosts echo e ip2 uri2 gt gt e
Hadoop 超立方体

嘿我正在启动一个基于 hadoop 的超立方体具有灵活的维度数有人知道这方面现有的方法吗我刚刚发现PigOLAP草图 http wiki apache org pig PigOLAPSketch 但没有代码可以使用它另一种方法是Z
通过Oozie命令行指定多个过滤条件

我正在尝试通过命令行搜索一些特定的 oozie 作业我使用以下语法进行相同的操作 oozie jobs filter status RUNNING status KILLED 但是该命令仅返回正在运行的作业而不是已杀死的作业需要帮助
“错误：无法找到或加载主类 org.apache.hadoop.util.RunJar”是什么意思？

我正在尝试运行一个示例因为它指出 Hadoop 实践一书 http www manning com lam 第 15 页这是需要运行的命令 bin hadoop jar hadoop examples jar 但我收到这个错误 Err
通过 Java 连接 Apache Drill

在 Apache Drill 的 Wiki 中我只能看到通过 SqlLine 客户端运行的查询除了 REST API 之外是否有任何编程方式可以在 Drill 中运行查询有任何示例或指示吗或者它与使用 JDBC 驱动程序运行 SQ
org.apache.hadoop.security.AccessControlException：客户端无法通过以下方式进行身份验证：[TOKEN，KERBEROS] 问题

我正在使用 java 客户端通过 Kerberos 身份验证安全访问 HDFS 我尝试打字klist在服务器上它显示已经存在的有效票证我收到的异常是客户端无法通过以下方式进行身份验证 TOKEN KERBEROS 帮助将不胜感激这是一
HIVE - 使用WITH CLAUSE插入覆盖

我有一个生成的查询以WITH子句开头当我在控制台中运行它时当我尝试使用INSERT OVERWRITE运行查询以将输出加载到单独的配置单元表中时该查询工作正常 INSERT OVERWRITE TABLE proc db master
为什么 SequenceFile 被截断？

我在学习Hadoop这个问题困扰了我一段时间基本上我正在写一个SequenceFile到磁盘然后读回然而每次我收到EOFException阅读时深入观察发现在写入序列文件时它被过早截断并且总是发生在写入索引962之后并且文件
找不到 hadoop 安装：必须设置 $HADOOP_HOME 或 hadoop 必须位于路径中

所以有一点背景我一直在尝试在 CentOS 6 机器上设置 Hive 我按照 YouTube 视频的说明进行操作 http www youtube com watch v L2lSrHsRpOI http www youtube com
Hive 有相当于 DUAL 的东西吗？

我想运行这样的语句 SELECT date add 2008 12 31 1 FROM DUAL Hive 在 Amazon EMR 上运行是否有类似的功能最好的解决方案是不要提及表名 select 1 1 给出结果 2 但是可怜的 H
如何让 HDFS 在 docker swarm 中工作

我很难让我的 HDFS 设置在 docker swarm 中工作为了理解这个问题我将我的设置减少到最低限度 1台物理机 1 个名称节点 1个数据节点此设置在 docker compose 中运行良好但在使用相同的 compose 文
Hive 错误：parseException 缺少 EOF

我不确定我在这里做错了什么 hive gt CREATE TABLE default testtbl int1 INT string1 STRING stored as orc tblproperties orc compress NONE

随机推荐

修改Mysql数据库的用户名和密码【详细】

数据库的用户名默认是root 1进入到Mysql 首先要登录数据库 1win r输入cmd 管理员身份打开或者 2搜索输入命令提示符 2 输入mysql uroot p点击回车注意 mysql默认用户名是root 我以前修改过所以我输
看起来很长但还是有用的Spring学习笔记

本文首发于泊浮目的专栏 https segmentfault com blog Spring致力于提供一种方法管理你的业务对象在大量Java EE的应用中随处可见Spring 今天我将简单的介绍一下Spring这个框架本文适合读者想
Verilog中generate语句的用法

在Verilog 2001中新增了语句generate 通过generate循环可以产生一个对象比如一个元件或者是一个模块的多次例化为可变尺度的设计提供了方便 generate语句一般在循环和条件语句中使用为此 Verilog 2
DLL的引入方式（DllImport的特殊引入方式）

Dll引入方式有四种 1 就是普通的比如一个解决方案中有多个项目将其他项目的引入到该项目中 2 就是软件自带的程序集的引入 3 就是使用dll的引入普通的本身就是VS的dll文件 4 就是使用dll的引入不是属于该语言的vs的Dll文
减少GC开销 &&可能出现内存泄漏的情况&&两个对象相互引用会不会被GC

如何降低java GC开销减少GC次数其他详见如何减少垃圾回收的次数 jvm虚拟机 1 选择一个较好的GC器 Java9在2017年九月发布 G1 Garbage First 垃圾回收器成为 HotSpot 虚拟机默认的垃圾回收器
还没用熟 TypeScript 社区已经开始抛弃了

前端Q 我是winty 专注分享前端知识和各类前端资源乐于分享各种有趣的事关注我一起做个有趣的人公众号点击上方前端Q 关注公众号回复加群加入前端Q技术交流群根据 rich harris talks sveltekit an
C# 加密解码各种方法

目录一加密解密介绍二 MD5 三 SHA x系列四 DES 3DES 五 RC2 六 AES 七 Base64 八 Rsa 九参考文献一加密解密介绍不可逆加密 MD5 SHA x系列对称式加密 Des 3DES RC2 AE
“加密系统”的巨坑

在来公司之前我压根就不知道这世界上原来还有加密系统这种软件产品存在学名叫数据防泄漏也怪我孤陋寡闻了因为之前在厦门从来没听说过哪家公司有在用加密系统当然每家公司都有自己独特的管理需求也许公司这边也确实重要信息比较多核心机密
java自定义排序

java中sort的自定义排序一 Arrays sort nums 的一般用法二最大数力扣179 三合并区间力扣59 四总结一 Arrays sort nums 的一般用法整个数组按照升序排序若需要降序排序将数组转置即
ng-model数据绑定实例

ng mode的作用是数据绑定 placeholder是默认显示值在input里面输入任何字符都会对应显示到你下面ng model对应的name中 name
Python 3基础教程19-模块导入语法

本文开始介绍模块导入的一些基本语法我们现在还在Python自带的IDLE编辑器里写Python代码如果你要需要一个功能例如build in的模块那么你就需要先导入这个模块然后才能使用这个模块相关方法不像在Pycharm编辑器了
剑指 Offer 18. 删除链表的节点

题目链接 18 删除链表的节点 Definition for singly linked list struct ListNode int val ListNode next ListNode int x val x next NULL c
良品铺子年报：将冲击百亿营收门槛斥资1.8亿现金分红

雷递网雷建平 3月23日报道良品铺子 603719 SH 日前公布2021年度业绩财报显示良品铺子2021年公司营收93 24亿元较2020年的78 94亿元增长18 11 近五年营收翻番这意味着良品铺子2022年将冲击百亿门
local_irq_save和 local_irq_disable

如果你要禁止所有的中断该怎么办在2 6内核中可以通过下面两个函数中的其中任何一个关闭当前处理器上的所有中断处理这两个函数定义在
constraints java_java-来自javax.validation.constraints的注释不起作用

java 来自javax validation constraints的注释不起作用使用id 如name NotNull等中的注释需要什么配置这是我的代码 import javax validation constraints Not
深入理解Solidity——创建合约

Solidity的合约类似于面向对象语言中的类它们包含存放持久化数据的状态变量和可修改这些变量的函数调用不同的合约实例上的函数将执行EVM函数调用从而切换上下文使得状态变量不可访问创建合约 Creating Contracts 合
支付宝商户转账给支付宝个人

首先引入支付宝的jar
TorchServe部署pytorch模型

文件准备 1 model file model py 参考 https github com pytorch serve blob master examples object detector maskrcnn model py 2 se
GODIVA论文阅读

论文链接 GODIVA Generating Open DomaIn Videos from nAtural Descriptions 文章目录摘要引言相关工作 Video to video generation Text to im
Hadoop3.2.*安装

CentOS8系统安装Hadoop 3 2 1伪分布式配置 Hadoop3 2 1版本的环境搭建 Java提升营博客园 TOC 实验目的在 Linux VM15pro CentOS8 环境下完成Hadoop 3 2 1伪分布式环境的搭建

Hadoop3.2.*安装

实验目的

一、下载并配置java环境

二、下载并解压hadoop安装包

三、配置环境变量

四、修改相关配置文件

​ 1、修改 hadoop-3.2.1/etc/hadoop/hadoop-env.sh，

​ 2、修改hadoop-3.2.1/etc/hadoop/core-site.xml

​ 3、修改hadoop-3.2.1/etc/hadoop/hdfs-site.xml

​ 4、修改hadoop-3.2.1/etc/hadoop/mapred-site.xml

​ 5、修改hadoop-3.2.1/etc/hadoop/yarn-site.xml

6.编辑 集群下的worker 文件

五、设置ssh免密码登录

免密登陆配置

六、开启hadoop

七、WordCount 实例检测

八、实验过程中报错解决

九、参考目录

Hadoop3.2.*安装 的相关文章

随机推荐

热门标签

1、修改 hadoop-3.2.1/etc/hadoop/hadoop-env.sh，

2、修改hadoop-3.2.1/etc/hadoop/core-site.xml

3、修改hadoop-3.2.1/etc/hadoop/hdfs-site.xml

4、修改hadoop-3.2.1/etc/hadoop/mapred-site.xml

5、修改hadoop-3.2.1/etc/hadoop/yarn-site.xml

6.编辑集群下的worker 文件

Hadoop3.2.*安装的相关文章