centos7 搭建Hadoop3.0.3完全分布式

2023-11-18

第一步：服务器规划

IP地址	主机名称	nameNode	dataNode
192.168.60.201	master	是	否
192.168.60.200	node1	否	是

第二步：基于依赖环境准备

1、centos7 搭建JDK8

参考文章地址：https://blog.csdn.net/zhouzhiwengang/article/details/87882197

2、centos7 查看防火墙状态，如果启动防火墙，则关闭防火墙

systemctl status firewalld.service   # 查询防火墙状态（active ：激活状态，disable:关闭状态）

systemctl stop firewalld.service      # 关闭防火墙

systemctl disable firewalld.service      # 禁用防火墙

3、输入mkdir /usr/local/hadoop 创建一个hadoop文件夹

4、将hadoop-3.0.3.tar.gz放到刚创建好的hadoop文件夹中

5、进入hadoop目录，输入tar -xvf hadoop-3.0.3.tar.gz 解压tar包

[root@master sbin]# cd /usr/local/hadoop/
[root@master hadoop]# ls
hadoop-3.0.3  hadoop-3.0.3.tar.gz

6、输入 vi /etc/profile，配置环境变量。加入如如下内容

export HADOOP_HOME=/usr/local/hadoop/hadoop-3.0.3

export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin

7、输入 souce /etc/profile ，使环境变量改动生效

8、任意目录输入hado，然后按Tab，如果自动补全为hadoop,则说明环境变量配的没问题，否则检查环境变量哪出错了

[root@master ~]# hadoop

9、创建三个之后要用到的文件夹，分别如下：

mkdir /usr/local/hadoop/tmp

mkdir -p /usr/local/hadoop/hdfs/name

mkdir /usr/local/hadoop/hdfs/data

创建结果如下：

10、进入hadoop-3.0.3解压后的 /etc/hadoop 目录，里面存放的是hadoop的配置文件，接下来要修改里面一些配置文件

11、有两个 .sh 文件，需要指定一下java的目录，首先输入 vi hadoop-env.sh 修改配置文件

[root@master hadoop]# vi hadoop-env.sh

将原有的JAVA_HOME注释掉，根据自己的JDK安装位置，精确配置JAVA_HOME如下，保存并退出

export JAVA_HOME=/usr/local/java/jdk1.8.0_181-amd64/

12、输入 vi yarn-env.sh 修改配置文件

[root@master hadoop]# vi yarn-env.sh

加入如下内容，指定JAVA_HOME,保存并退出

export JAVA_HOME=/usr/local/java/jdk1.8.0_181-amd64/

13、输入 vi core-site.xml 修改配置文件

[root@master hadoop]# vi core-site.xml

在configuration标签中，添加如下内容，保存并退出，注意这里配置的hdfs:master:9000是不能在浏览器访问的

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!--
  Licensed under the Apache License, Version 2.0 (the "License");
  you may not use this file except in compliance with the License.
  You may obtain a copy of the License at

    http://www.apache.org/licenses/LICENSE-2.0

  Unless required by applicable law or agreed to in writing, software
  distributed under the License is distributed on an "AS IS" BASIS,
  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
  See the License for the specific language governing permissions and
  limitations under the License. See accompanying LICENSE file.
-->

<!-- Put site-specific property overrides in this file. -->

<configuration>
         <property>
                <name>fs.defaultFS</name>
                <value>hdfs://master:9000</value>
                <description>HDFS的URI</description>
        </property>

        <property>
                <name>hadoop.tmp.dir</name>
                <value>file:/usr/local/hadoop/tmp</value>
                <description>节点上本地的hadoop临时文件夹</description>
        </property>
</configuration>

14、输入 vi hdfs-site.xml 修改配置文件

[root@master hadoop]# vi hdfs-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!--
  Licensed under the Apache License, Version 2.0 (the "License");
  you may not use this file except in compliance with the License.
  You may obtain a copy of the License at

    http://www.apache.org/licenses/LICENSE-2.0

  Unless required by applicable law or agreed to in writing, software
  distributed under the License is distributed on an "AS IS" BASIS,
  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
  See the License for the specific language governing permissions and
  limitations under the License. See accompanying LICENSE file.
-->

<!-- Put site-specific property overrides in this file. -->

<configuration>
          <property>
                <name>dfs.namenode.http-address</name>
                <value>master:50070</value>
        </property>
        <!--
        <property>
                <name>dfs.datanode.http.address</name>
                <value>master:50075</value>
                <description>
                The datanode http server address and port.
                If the port is 0 then the server will start on a free port.
                </description>
        </property>
        -->
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:/usr/local/hadoop/hdfs/name</value>
                <description>namenode上存储hdfs名字空间元数据 </description>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:/usr/local/hadoop/hdfs/data</value>
                <description>datanode上数据块的物理存储位置</description>
        </property>
        <property>
                <name>dfs.replication</name>
                <value>1</value>
                <description>副本个数，默认是3,应小于datanode机器数量</description>
        </property>
</configuration>

15、输入 vi mapred-site.xml 修改配置文件

[root@master hadoop]# vi mapred-site.xml


<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!--
  Licensed under the Apache License, Version 2.0 (the "License");
  you may not use this file except in compliance with the License.
  You may obtain a copy of the License at

    http://www.apache.org/licenses/LICENSE-2.0

  Unless required by applicable law or agreed to in writing, software
  distributed under the License is distributed on an "AS IS" BASIS,
  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
  See the License for the specific language governing permissions and
  limitations under the License. See accompanying LICENSE file.
-->

<!-- Put site-specific property overrides in this file. -->

<configuration>
         <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
                <description>指定mapreduce使用yarn框架</description>
        </property>
</configuration>
~

16、输入vi yarn-site.xml 修改配置文件

[root@master hadoop]# vi yarn-site.xml

在configuration标签中，添加如下内容，保存并退出

<property>
                <name>yarn.resourcemanager.hostname</name>
                <value>master</value>
                <description>指定resourcemanager所在的hostname</description>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
                <description>
                NodeManager上运行的附属服务。
                需配置成mapreduce_shuffle，才可运行MapReduce程序
                </description>
        </property>

17、输入 vi workers 修改配置文件（老版本是slaves文件，3.0.3 用 workers 文件代替 slaves 文件）

[root@master hadoop]# pwd
/usr/local/hadoop/hadoop-3.0.3/etc/hadoop
[root@master hadoop]# vi workers

将localhost删掉，加入如下内容，即dataNode节点的主机名

node1

18、将虚拟机关闭，再复制一份虚拟机，重命名为node1,注意这里一定要关闭虚拟机，再复制

19、将2台虚拟机都打开，后一台复制的虚拟机打开时，都选择“我已复制该虚拟机”

20、修改centos7主机名称

参考文章：https://blog.csdn.net/zhouzhiwengang/article/details/93597019

21、在二台机器分别输入 vi /etc/hosts 修改文件，其作用是将一些常用的网址域名与其对应的IP地址建立一个关联，当用户在访问网址时，系统会首先自动从Hosts文件中寻找对应的IP地址

二个文件中都加入如下内容，保存并退出，注意这里要根据自己实际IP和节点主机名进行更改，IP和主机名中间要有一个空格

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.60.201 master
192.168.60.200 node1

22、配置二台机器间的免密登录ssh

参考文章地址:https://blog.csdn.net/zhouzhiwengang/article/details/93602224

23、如果node节点还没有hadoop，则master机器上分别输入如下命令将hadoop复制

scp /usr/local/hadoop/* root@node1:/usr/local/hadoop

24、在master机器上，任意目录输入 hdfs namenode -format 格式化namenode，第一次使用需格式化一次，之后就不用再格式化，如果改一些配置文件了，可能还需要再次格式化

hdfs namenode -format

25、在master机器上，进入hadoop的sbin目录，输入 ./start-all.sh 启动hadoop（若只配了hdfs，则可以输入 ./start-dfs.sh 启动hdfs）

[root@master sbin]# ./start-dfs.sh

26、输入jps查看当前java的进程，

该命令是JDK1.5开始有的，作用是列出当前java进程的PID和Java主类名，nameNode节点除了JPS，还有3个进程，启动成功

27、在node1机器输入 jps 查看进程如下，说明配置成功

28、在浏览器访问nameNode节点的8088端口和50070端口可以查看hadoop的运行状况、

29、在master机器上，进入hadoop的sbin目录，输入 ./stop-all.sh 关闭hadoop 或输入 ./stop-dfs.sh 关闭dfs

遇到的问题：Attempting to operate on hdfs namenode as root

写在最前注意：
1、master，slave都需要修改start-dfs.sh，stop-dfs.sh，start-yarn.sh，stop-yarn.sh四个文件
2、如果你的Hadoop是另外启用其它用户来启动，记得将root改为对应用户

HDFS格式化后启动dfs出现以下错误：

[root@master sbin]# ./start-dfs.sh
Starting namenodes on [master]
ERROR: Attempting to operate on hdfs namenode as root
ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.
Starting datanodes
ERROR: Attempting to operate on hdfs datanode as root
ERROR: but there is no HDFS_DATANODE_USER defined. Aborting operation.
Starting secondary namenodes [slave1]
ERROR: Attempting to operate on hdfs secondarynamenode as root
ERROR: but there is no HDFS_SECONDARYNAMENODE_USER defined. Aborting operation.

在/usr/local/hadoop/hadoop-3.0.3/sbin路径下：
将start-dfs.sh，stop-dfs.sh两个文件顶部添加以下参数:

HDFS_DATANODE_USER=root
HDFS_DATANODE_SECURE_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root

还有，start-yarn.sh，stop-yarn.sh顶部也需添加以下：

YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root

修改后重启 ./start-dfs.sh，成功

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

centos7 搭建Hadoop3.0.3完全分布式的相关文章

Hadoop 性能

我安装了hadoop 1 0 0并尝试了字数统计示例单节点集群完成时间为 2 分 48 秒然后我尝试了标准的 Linux 字数统计程序该程序在同一组 180 kB 数据上运行只需 10 毫秒是我做错了什么还是 Hadoop 非
大师必须从纱线、火花开始

当我想要运行 SparkPi 示例时我收到此错误 beyhan beyhan spark 1 2 0 bin hadoop2 4 home beyhan spark 1 2 0 bin hadoop2 4 bin spark submit
如何将 Jar 文件传递到 OOZIE shell 节点中的 shell 脚本

您好我在 oozie shell 操作工作流程中执行的脚本中运行 java 程序时遇到以下错误 Stdoutput 2015 08 25 03 36 02 636 INFO pool 1 thread 1 ProcessExecute j
java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.createDirectoryWithMode0

我无法解决这个异常我已经阅读了 hadoop 文档以及我能找到的所有相关的 stackoverflow 问题我的 fileSystem mkdirs 抛出 Exception in thread main java lang Unsat
如何在linux中的hdfs超级组中添加用户？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在研究 hdfs 然后我发现某些内容没有为超级用户执行权限检查如果我的 linux 用户是 sandy 并且我想将 sandy 添加
S3错误线程“main”中的异常java.lang.UnsatisfiedLinkError：org.apache.hadoop.io.nativeio.NativeIO$Windows.access0

我使用了以下依赖项
如何使用新的 Hadoop API 来使用 MultipleTextOutputFormat？

我想编写多个输出文件如何使用 Job 而不是 JobConf 来执行此操作创建基于密钥的输出文件名的简单方法 input data type key value cupertino apple sunnyvale banana cupe
一个目录下可以有两个oozieworkflow.xml文件吗？

一个目录下可以有两个oozieworkflow xml文件吗如果是这样我如何指示 oozie runner 运行哪一个您可以有两个工作流程文件只需为它们指定唯一的名称然后您可以通过设置oozie wf application pa
java.io.IOException：无法获取 LocationBlock 的块长度

我正在使用 HDP 2 1 对于集群我遇到了以下异常并且 MapReduce 作业因此失败实际上我们定期使用 Flume 版本的数据创建表 1 4 我检查了映射器尝试读取的数据文件但我找不到任何内容 2014 11 28 00 0
无法从 JAR 文件加载主类

我有一个 Spark scala 应用程序我尝试显示一条简单的消息 Hello my App 当我编译它时sbt compile并运行它sbt run没关系我成功显示了我的消息但他显示了错误像这样 Hello my applicat
将多个前缀行过滤器设置为扫描仪 hbase java

我想创建一台扫描仪它可以为我提供带有 2 个前缀过滤器的结果例如我想要其键以字符串 x 开头或以字符串 y 开头的所有行目前我知道只能使用一个前缀方法如下 scan setRowPrefixFilter prefixFiltet 在
在 Hive 中分解一行 XML 数据

我们将 XML 数据作为名为 XML 的单个字符串列加载到 Hadoop 中我们正在尝试检索数据级别并将其标准化或分解为单行进行处理你知道就像表格一样已经尝试过分解功能但没有得到我们想要的示例 XML
Spark超时可能是由于HDFS中文件超过100万个的binary Files()

我正在通过以下方式读取数百万个 xml 文件 val xmls sc binaryFiles xmlDir 该操作在本地运行良好但在纱线上失败并显示 client token N A diagnostics Application app
Hive查询快速查找表大小（行数）

是否有 Hive 查询可以快速查找表大小即行数而无需启动耗时的 MapReduce 作业这就是为什么我想避免COUNT I tried DESCRIBE EXTENDED 但这产生了numRows 0这显然是不正确的对新手问题表示歉
2017 年在 OS X 上从源代码构建 Apache Hadoop

到目前为止我已经分叉了 Git 存储库 https github com apache hadoop 我一直在寻找有关如何从源代码构建的信息我尝试过以下命令 mvn package Pdist Dtar DskipTests 这导致了以
Couchbase/hadoop 连接器：sqoop 作业失败“找到接口 org.apache.hadoop.mapreduce.TaskAttemptContext，但需要类”

我的配置 CouchBase服务器2 0 Sqoop 1 4 2 针对hadoop版本2 0 0编译堆栈Hadoop CDH4 1 2 我想使用 CouchBase Hadoop 连接器 http www couchbase com de
Sqoop mysql错误-通信链路故障

尝试运行以下命令 sqoop import connect jdbc mysql 3306 home credit risk table bureau target dir home sqoop username root password
猪如何过滤不同的对（对）

我是猪的新手我有一个 Pig 脚本它在两个元素之间生成制表符分隔的对每行一对例如 John Paul Tom Nik Mark Bill Tom Nik Paul John 我需要过滤掉重复的组合如果我使用 DISTINCT 我会
hive创建表的多个转义字符

我正在尝试将带有管道分隔符的 csv 加载到配置单元外部表数据值包含单引号双引号括号等使用 Open CSV 版本 2 3 测试文件 csv id name phone 1 Rahul 123 2 Kumar s 456 3 Nee
获取行 HBase 的特定列族中的列

我正在编写一个应用程序通过 JSP 显示 HBase 中特定表中的数据我想获取一行的特定列族中的所有列有什么办法可以做到这一点吗 public String getColumnsInColumnFamily Result r Stri

随机推荐

去除快捷方式箭头BAT脚本

去除快捷方式箭头BAT脚本 1 脚本功能去除window电脑桌面图标右下角的快捷方式小箭头对于强迫症患者绝对是福音总之清除了之后非常的舒畅 2 脚本内容 echo off color 2 reg delete HKCR lnkfile
Knowledge Distillation and Student-Teacher Learning for Visual Intelligence

本文是蒸馏学习综述系列的第四篇文章 Knowledge Distillation and Student Teacher Learning for Visual Intelligence A Review and New Outlooks的
C89和C99标准比较

1 增加restrict指针 C99中增加了公适用于指针的restrict类型修饰符它是初始访问指针所指对象的惟一途径因此只有借助restrict指针表达式才能访问对象 restrict指针指针主要用做函数变元或者指向由malloc
PAT B 1055 集体照（C语言）

一题目拍集体照时队形很重要这里对给定的 N 个人 K 排的队形设计排队规则如下每排人数为 N K 向下取整多出来的人全部站在最后一排后排所有人的个子都不比前排任何人矮每排中最高者站中间中间位置为 m 2 1 其中 m 为该排
设备退出：“设备正在使用”的快速解决办法

我们常常遇到U盘或移动硬盘显示因为设备正在使用而无法拔出的情况如果冒然拔出可能会造成数据丢失或损坏设备的情况现在提供一个可以快速解决的办法步骤一 win r 打开cmd命令命令面板步骤二输入diskpart 进入磁盘分区管理
android手机拍摄权限,react-native 手机拍照权限

第一步在 android app src main AndroidManifest xml 添加然后运行项目在手机应用权限哪里查看这是添加前的这是添加后的第二步调用 import React Component from reac
Vuforia的各种Target的简单介绍（包括地面识别）

Vuforia的各种Target的简单介绍包括地面识别前言 Vuforia的两种识别分类 1 需要特定目标的识别 2 不需要特定目标的识别上边两种的优缺点基于优缺点进行的阿应用场景推荐需要目标的类型上传你的目标到服务器不需要目
Android UI-开源框架ImageLoader的完美例子

android layout gravity left center vertical android layout marginLeft 20dip android textSize 22sp gt GridView异步加载图片显示 20
Android APK反编译最新版解决Could not decode arsc file

本人小白初学Android 这不想着找点成熟的app看看学习一下就找到反编译了拜读各位前辈大神的文章弄啊弄总是出现 Could not decode arsc file 的错误擦擦愁人啊百度不行就Google 捯饬啊捯饬
Ubuntu 安装与使用 Visual Studio Code

1 Visual Studio Code简介 1 1 什么是Visual Studio Code Visual Studio Code是微软推出的一个运行于 Mac OS X Windows和 Linux 之上的针对于编写现代 Web 和
服务计算：简单的web程序

CloudGo 框架选择看了go的一些框架如beego和iris觉得挺好的本来想用但是虚拟机出了点问题装不成 windows上装成了没ab指令所以使用官方的net http库做简单的实验看完beego和iris的特性我还是比较想用
Linux下yum安装dstat,安装配置整理之 dstat

tech163 usr local download dstat help Usage dstat afv options delay count Versatile tool for generating system resource
菜鸡面试遇到有印象的问题（LINUX下内核如何管理内存）

目录写在文章的前面本人C C 面试岗位学艺不精研究生做的与代码无关的工作仅记录每次面试遇到的问题勉励自己一 x86下的物理地址空间布局二 linux虚拟地址内核空间分布三 linux虚拟地址用户空间分布 1 page 页 2
通过tableExport.js插件导出jqgrid表格数据

通过tableExport js插件导出jqgrid表格数据提前说没有实现导出pdf png和ppt 实现了导出 JSON XML CSV TXT SQL MS Word Ms Excel 代码实例包含改进的tableExport j
MySQL建表设置默认值取值范围

一设置默认值设置默认值采用default 如代码所示二设置取值范围设置取值范围采用check 如代码所示 create table student id int not null primary key auto incremen
java项目自动化单元测试

对于我们开发人员来说单元测试一定不会陌生但在各种原因下会被忽视尤其是在我接触到的项目中提测阶段发现各种各样的问题我觉得有必要聊一下单元测试为了写而写的单元测试没什么价值但一个好的单元测试带来的收益是非常客观的问题是怎么去写好
CVAT标注工具的部署步骤详解

简介 CVAT Computer Vision Annotation Tool 此标注工具是用于机器视觉数据标注的在线标注工具以网页形式标注能够生成多种数据标注格式基本涵盖了市面上百分之九十以上格式此工具也有自己的标注格式此工具的优
Canvas 详解

HTML 5 Canvas 参考手册
ES6语法知识点

目录 let const 常用暂时性死区 const 建议箭头函数常用建议 iterator迭代器解构赋值常用建议剩余扩展运算符常用扩展运算符剩余运算符在对象中使用扩展运算符建议对象属性方法简写常用对象属
centos7 搭建Hadoop3.0.3完全分布式

第一步服务器规划 IP地址主机名称 nameNode dataNode 192 168 60 201 master 是否 192 168 60 200 node1 否是第二步基于依赖环境准备 1 centos7 搭建JDK8 参

centos7 搭建Hadoop3.0.3完全分布式

centos7 搭建Hadoop3.0.3完全分布式 的相关文章

随机推荐

热门标签

centos7 搭建Hadoop3.0.3完全分布式的相关文章