Hadoop安装和配置

2023-05-16

1、安装Hadoop

注意:安装JDK类似,解压后配置环境变量

1.0.  Hadoop下载地址:

https://archive.apache.org/dist/hadoop/common/hadoop-2.7.2/

1.1. 用SecureCRT工具将hadoop-2.7.2.tar.gz导入到opt目录下面的software文件夹下面

切换到sftp连接页面,选择Linux下编译的hadoop jar包拖入,如图2-32所示

图2-32 拖入hadoop的tar包

图2-33 拖入Hadoop的tar包成功

1.2. 进入到Hadoop安装包路径下

[atguigu@hadoop101 ~]$ cd /opt/software/

1.3. 解压安装文件到/opt/module下面

[atguigu@hadoop101 software]$ tar -zxvf hadoop-2.7.2.tar.gz -C /opt/module/

1.4. 查看是否解压成功

[atguigu@hadoop101 software]$ ls /opt/module/

hadoop-2.7.2

1.5. 将Hadoop添加到环境变量

(1)获取Hadoop安装路径

[atguigu@hadoop101 hadoop-2.7.2]$ pwd

/opt/module/hadoop-2.7.2

(2)打开/etc/profile文件

[atguigu@hadoop101 hadoop-2.7.2]$ sudo vi /etc/profile

在profile文件末尾添加JDK路径:(shitf+g)

##HADOOP_HOME

export HADOOP_HOME=/opt/module/hadoop-2.7.2

export PATH=$PATH:$HADOOP_HOME/bin

export PATH=$PATH:$HADOOP_HOME/sbin

(3)保存后退出

:wq

(4)让修改后的文件生效

[atguigu@ hadoop101 hadoop-2.7.2]$ source /etc/profile

1.6.  测试是否安装成功

[atguigu@hadoop101 hadoop-2.7.2]$ hadoop version

Hadoop 2.7.2

1.7. 重启(如果Hadoop命令不能用再重启)

[atguigu@ hadoop101 hadoop-2.7.2]$ sync

[atguigu@ hadoop101 hadoop-2.7.2]$ sudo reboot

2、配置Hadoop

2.1 运行Hadoop集群的准备工作

解压所下载的Hadoop发行版。编辑 vim etc/hadoop/hadoop-env.sh (注意:Hadoop下面的etc文件)文件,至少需要将JAVA_HOME设置为Java安装根路径。

vim etc/hadoop/hadoop-env.sh 

尝试如下命令:
$ bin/hadoop
将会显示hadoop 脚本的使用文档。

现在你可以用以下三种支持的模式中的一种启动Hadoop集群:

  • 单机模式
  • 伪分布式模式
  • 完全分布式模式

2.2 单机模式的操作方法

默认情况下,Hadoop被配置成以非分布式模式运行的一个独立Java进程。这对调试非常有帮助。

下面的实例将已解压的 etc/hadoop目录拷贝作为输入,查找并显示匹配给定正则表达式的条目。输出写入到指定的output目录。

2.2.1.创建在hadoop-2.7.2文件下面创建一个input文件夹

[atguigu@hadoop101 hadoop-2.7.2]$ mkdir input

2.2.2.将Hadoop的xml配置文件复制到input

[atguigu@hadoop101 hadoop-2.7.2]$ cp etc/hadoop/*.xml input

2.2.3.执行share目录下的MapReduce程序

[atguigu@hadoop101 hadoop-2.7.2]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+'

2.2.4.查看输出结果

[atguigu@hadoop101 hadoop-2.7.2]$ cat output/*

2.3 伪分布式模式的操作方法

Hadoop可以在单节点上以所谓的伪分布式模式运行,此时每一个Hadoop守护进程都作为一个独立的Java进程运行。

2.3.1 启动HDFS并运行MapReduce程序

1.   分析

       (1)配置集群

       (2)启动、测试集群增、删、查

       (3)执行WordCount案例

2.   执行步骤

(1)配置集群

    (a)配置:vim etc/hadoop/hadoop-env.sh

      Linux系统中获取JDK的安装路径:     

[atguigu@ hadoop101 ~]# echo $JAVA_HOME
/opt/module/jdk1.8.0_144

   修改JAVA_HOME 路径:

export JAVA_HOME=/opt/module/jdk1.8.0_144

 (b)配置:vim etc/hadoop/core-site.xml

<!-- 指定HDFS中NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
    <value>hdfs://hadoop101:9000</value>
</property>

<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>

(c)配置:vim etc/hadoop/hdfs-site.xml

<!-- 指定HDFS副本的数量 -->
<property>
    <name>dfs.replication</name>
    <value>1</value>
</property>

(2)启动集群

        (a)格式化NameNode (第一次启动时格式化,以后就不要总格式化)

[atguigu@hadoop101 hadoop-2.7.2]$ bin/hdfs namenode -format

        (b)启动NameNode

[atguigu@hadoop101 hadoop-2.7.2]$ sbin/hadoop-daemon.sh start namenode

        (c)启动DataNode

[atguigu@hadoop101 hadoop-2.7.2]$ sbin/hadoop-daemon.sh start datanode

(3)查看集群

        (a)查看是否启动成功

[atguigu@hadoop101 hadoop-2.7.2]$ jps
13586 NameNode
13668 DataNode
13786 Jps

注意:jpsJDK中的命令,不是Linux命令。不安装JDK不能使用jps

        (b)web端查看HDFS文件系统

http://hadoop101:50070/dfshealth.html#tab-overview

注意:如果不能查看,看如下帖子处理

http://www.cnblogs.com/zlslch/p/6604189.html

        (c)查看产生的Log日志

 说明:在企业中遇到Bug时,经常根据日志提示信息去分析问题、解决Bug

当前目录:/opt/module/hadoop-2.7.2/logs

[atguigu@hadoop101 logs]$ ls
hadoop-atguigu-datanode-hadoop.atguigu.com.log
hadoop-atguigu-datanode-hadoop.atguigu.com.out
hadoop-atguigu-namenode-hadoop.atguigu.com.log
hadoop-atguigu-namenode-hadoop.atguigu.com.out
SecurityAuth-root.audit
[atguigu@hadoop101 logs]# cat hadoop-atguigu-datanode-hadoop101.log

d)思考:为什么不能一直格式化NameNode,格式化NameNode,要注意什么?

[atguigu@hadoop101 hadoop-2.7.2]$ cd data/tmp/dfs/name/current/
[atguigu@hadoop101 current]$ cat VERSION
clusterID=CID-f0330a58-36fa-4a2a-a65f-2688269b5837

[atguigu@hadoop101 hadoop-2.7.2]$ cd data/tmp/dfs/data/current/
clusterID=CID-f0330a58-36fa-4a2a-a65f-2688269b5837

注意:格式化NameNode,会产生新的集群id,导致NameNodeDataNode的集群id不一致,集群找不到已往数据。所以,格式NameNode时,一定要先删除data数据和log日志,然后再格式化NameNode

(4)操作集群

        (a)在HDFS文件系统上创建一个input文件夹

[atguigu@hadoop101 hadoop-2.7.2]$ bin/hdfs dfs -mkdir -p /user/atguigu/input

        (b)将测试文件内容上传到文件系统上

[atguigu@hadoop101 hadoop-2.7.2]$bin/hdfs dfs -put wcinput/wc.input
  /user/atguigu/input/

        (c)查看上传的文件是否正确

[atguigu@hadoop101 hadoop-2.7.2]$ bin/hdfs dfs -ls  /user/atguigu/input/
[atguigu@hadoop101 hadoop-2.7.2]$ bin/hdfs dfs -cat  /user/atguigu/ input/wc.input

        (d)运行MapReduce程序

[atguigu@hadoop101 hadoop-2.7.2]$ bin/hadoop jar
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/atguigu/input/ /user/atguigu/output

        (e)查看输出结果

命令行查看:

[atguigu@hadoop101 hadoop-2.7.2]$ bin/hdfs dfs -cat /user/atguigu/output/*

浏览器查看,如图2-34所示

图2-34 查看output文件

        (f)将测试文件内容下载到本地

[atguigu@hadoop101 hadoop-2.7.2]$ hdfs dfs -get /user/atguigu/output/part-r-00000 ./wcoutput/

      (g)删除输出结果

[atguigu@hadoop101 hadoop-2.7.2]$ hdfs dfs -rm -r /user/atguigu/output

2.3.2 启动YARN并运行MapReduce程序

1.  分析

       (1)配置集群在YARN上运行MR

       (2)启动、测试集群增、删、查

       (3)在YARN上执行WordCount案例

2.  执行步骤     

    (1)配置集群

          (a)配置vim etc/hadoop/yarn-env.sh

配置一下JAVA_HOME

export JAVA_HOME=/opt/module/jdk1.8.0_144

       (b)配置vim etc/hadoop/yarn-site.xml

<!-- Reducer获取数据的方式 -->
<property>
     <name>yarn.nodemanager.aux-services</name>
     <value>mapreduce_shuffle</value>
</property>

<!-- 指定YARN的ResourceManager的地址 -->
<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>hadoop101</value>
</property>

              (c)配置:vim etc/hadoop/mapred-env.sh

配置一下JAVA_HOME

export JAVA_HOME=/opt/module/jdk1.8.0_144

              (d)配置: (对mapred-site.xml.template重新命名为) mapred-site.xml

[atguigu@hadoop101 hadoop]$ mv mapred-site.xml.template mapred-site.xml

[atguigu@hadoop101 hadoop]$ vi mapred-site.xml
<!-- 指定MR运行在YARN上 -->
<property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
</property>

(2)启动集群

      (a)启动前必须保证NameNode和DataNode已经启动

      (b)启动ResourceManager

[atguigu@hadoop101 hadoop-2.7.2]$ sbin/yarn-daemon.sh start resourcemanager

      (c)启动NodeManager

[atguigu@hadoop101 hadoop-2.7.2]$ sbin/yarn-daemon.sh start nodemanager

3)集群操作

      (a)YARN的浏览器页面查看,如图2-35所示

http://hadoop101:8088/cluster

图2-35 YARN的浏览器页面

       (b)删除文件系统上的output文件

[atguigu@hadoop101 hadoop-2.7.2]$ bin/hdfs dfs -rm -R /user/atguigu/output

       (c)执行MapReduce程序

[atguigu@hadoop101 hadoop-2.7.2]$ bin/hadoop jar
 share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/atguigu/input  /user/atguigu/output

        (d)查看运行结果,如图2-36所示

[atguigu@hadoop101 hadoop-2.7.2]$ bin/hdfs dfs -cat /user/atguigu/output/*

图2-36 查看运行结果

2.3.3 配置历史服务器

为了查看程序的历史运行情况,需要配置一下历史服务器。具体配置步骤如下:

1.    配置mapred-site.xml

[atguigu@hadoop101 hadoop]$ vi mapred-site.xml

在该文件里面增加如下配置。

<!-- 历史服务器端地址 -->
<property>
    <name>mapreduce.jobhistory.address</name>
    <value>hadoop101:10020</value>
</property>

<!-- 历史服务器web端地址 -->
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>hadoop101:19888</value>
</property>

2.    启动历史服务器

[atguigu@hadoop101 hadoop-2.7.2]$ sbin/mr-jobhistory-daemon.sh start historyserver

3.    查看历史服务器是否启动

[atguigu@hadoop101 hadoop-2.7.2]$ jps

4.    查看JobHistory

http://hadoop101:19888/jobhistory

2.3.4 配置日志的聚集

日志聚集概念:应用运行完成以后,将程序运行日志信息上传到HDFS系统上。

日志聚集功能好处:可以方便的查看到程序运行详情,方便开发调试。

注意:开启日志聚集功能,需要重新启动NodeManager ResourceManagerHistoryManager

开启日志聚集功能具体步骤如下:

1.配置yarn-site.xml

[atguigu@hadoop101 hadoop]$ vi yarn-site.xml

在该文件里面增加如下配置。

<!-- 日志聚集功能使能 -->
<property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
</property>
<!-- 日志保留时间设置7天 -->
<property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>604800</value>
</property>

2.关闭NodeManager 、ResourceManager和HistoryServer

[atguigu@hadoop101 hadoop-2.7.2]$ sbin/yarn-daemon.sh stop resourcemanager
[atguigu@hadoop101 hadoop-2.7.2]$ sbin/yarn-daemon.sh stop nodemanager
[atguigu@hadoop101 hadoop-2.7.2]$ sbin/mr-jobhistory-daemon.sh stop historyserver

3.启动NodeManager 、ResourceManager和HistoryServer

[atguigu@hadoop101 hadoop-2.7.2]$ sbin/yarn-daemon.sh start resourcemanager
[atguigu@hadoop101 hadoop-2.7.2]$ sbin/yarn-daemon.sh start nodemanager
[atguigu@hadoop101 hadoop-2.7.2]$ sbin/mr-jobhistory-daemon.sh start historyserver

4.删除HDFS上已经存在的输出文件

[atguigu@hadoop101 hadoop-2.7.2]$ bin/hdfs dfs -rm -R /user/atguigu/output

5.执行WordCount程序

[atguigu@hadoop101 hadoop-2.7.2]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/atguigu/input /user/atguigu/output

6.查看日志,如图2-37,2-38,2-39所示

http://hadoop101:19888/jobhistory

图2-37  Job History

图2-38 job运行情况

图2-39 查看日志

2.3.5 配置文件说明

Hadoop配置文件分两类:默认配置文件和自定义配置文件,只有用户想修改某一默认配置值时,才需要修改自定义配置文件,更改相应属性值。

(1)默认配置文件:

表2-1

要获取的默认文件

文件存放在Hadoop的jar包中的位置

[core-default.xml]

hadoop-common-2.7.2.jar/ core-default.xml

[hdfs-default.xml]

hadoop-hdfs-2.7.2.jar/ hdfs-default.xml

[yarn-default.xml]

hadoop-yarn-common-2.7.2.jar/ yarn-default.xml

[mapred-default.xml]

hadoop-mapreduce-client-core-2.7.2.jar/ mapred-default.xml

       (2)自定义配置文件:

       core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml四个配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上,用户可以根据项目需求重新进行修改配置。

2.4 完全分布式运行模式(开发重点)

xsync集群分发脚本

需求:循环复制文件到所有集群节点的相同目录下

rsync    -av           $pdir/$fname                   $user@hadoop$host:$pdir/$fname

命令   选项参数   要拷贝的文件路径/名称    目的用户@主机:目的路径/名称

示例:rsync  -av  /opt/software/   hadoop102:/opt/software

选项参数说明

选项

功能

-a

归档拷贝

-v

显示复制过程

 

 

切换到root用户,并在/usr/bin目录下xsync创建文件,文件内容如下:

[atguigu@hadoop100 local]$ su root
密码:
[root@hadoop100 ~]$ cd /usr/local/bin
[root@hadoop100 bin]$ touch xsync
[root@hadoop100 bin]$ vi xsync

说明:在/usr/local/bin这个目录下存放的脚本,所有用户可以在系统任何地方直接执行。

在该文件中编写如下代码

#!/bin/bash
#1 获取输入参数个数,如果没有参数,直接退出
pcount=$#
if ((pcount==0)); then
echo no args;
exit;
fi

#2 获取文件名称
p1=$1
fname=`basename $p1`
echo fname=$fname

#3 获取上级目录到绝对路径
pdir=`cd -P $(dirname $p1); pwd`
echo pdir=$pdir

#4 获取当前用户名称
user=`whoami`

#5 循环
for((host=101; host<104; host++)); do
        echo ------------------- hadoop$host --------------
        rsync -av $pdir/$fname $user@hadoop$host:$pdir
done

修改脚本 xsync 具有执行权限

[root@hadoop100 bin]$ chmod 777 xsync

(c)调用脚本形式:xsync 文件名称(把hadoop、jdk、环境变量文件分发到集群)

[root@hadoop100 module]$ xsync hadoop-2.7.2
[root@hadoop100 module]# xsync jdk1.8.0_144/
[root@hadoop100 module]# xsync /etc/profile

为了方便其它虚拟机也能使用分发脚本,我们把分发脚本也发过去。

[root@hadoop100 hadoop]# xsync /usr/local/bin/xsync 

注意:也可以将xsync放到/home/atguigu/bin目录下供当前用户使用。

集群配置

1.   集群部署规划

 

 

hadoop101

hadoop102

hadoop103

HDFS

 

NameNode

DataNode

 

DataNode

SecondaryNameNode

DataNode

YARN

 

NodeManager

ResourceManager

NodeManager

 

NodeManager

2.   配置集群

       (1)核心配置文件

配置core-site.xml

[atguigu@hadoop101 hadoop]$ vi core-site.xml

在该文件中编写如下配置

<!-- 指定HDFS中NameNode的地址 -->
<property>
     <name>fs.defaultFS</name>
      <value>hdfs://hadoop101:9000</value>
</property>

<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
     <name>hadoop.tmp.dir</name>
     <value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>

       (2)HDFS配置文件

配置hadoop-env.sh

[atguigu@hadoop101 hadoop]$ vi hadoop-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144

配置hdfs-site.xml

[atguigu@hadoop101 hadoop]$ vi hdfs-site.xml

在该文件中编写如下配置

<property>
     <name>dfs.replication</name>
     <value>3</value>
</property>

<!-- 指定Hadoop辅助名称节点主机配置 -->
<property>
      <name>dfs.namenode.secondary.http-address</name>
      <value>hadoop103:50090</value>
</property>

(3)YARN配置文件

配置yarn-env.sh

[atguigu@hadoop101 hadoop]$ vi yarn-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144

配置yarn-site.xml

[atguigu@hadoop101 hadoop]$ vi yarn-site.xml

在该文件中增加如下配置

<!-- Reducer获取数据的方式 -->
<property>
     <name>yarn.nodemanager.aux-services</name>
     <value>mapreduce_shuffle</value>
</property>

<!-- 指定YARN的ResourceManager的地址 -->
<property>
     <name>yarn.resourcemanager.hostname</name>
     <value>hadoop102</value>
</property>

(4)MapReduce配置文件

配置mapred-env.sh

[atguigu@hadoop101 hadoop]$ vi mapred-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144

配置mapred-site.xml

[atguigu@hadoop101 hadoop]$ cp mapred-site.xml.template mapred-site.xml
[atguigu@hadoop101 hadoop]$ vi mapred-site.xml

在该文件中增加如下配置

<!-- 指定MR运行在Yarn上 -->
<property>
     <name>mapreduce.framework.name</name>
     <value>yarn</value>
</property>

3.在集群上分发配置好的Hadoop配置文件

[atguigu@hadoop101 hadoop]$ xsync /opt/module/hadoop-2.7.2/

4.查看文件分发情况

[atguigu@hadoop102 hadoop]$ cat /opt/module/hadoop-2.7.2/etc/hadoop/core-site.xml

集群单点启动

(1)如果集群是第一次启动,需要格式化NameNode

[atguigu@hadoop101 hadoop-2.7.2]$ hdfs namenode -format

(2)在hadoop101上启动NameNode

[atguigu@hadoop101 hadoop-2.7.2]$ hadoop-daemon.sh start namenode
[atguigu@hadoop101 hadoop-2.7.2]$ jps
3461 NameNode

(3)在hadoop101、hadoop102以及hadoop103上分别启动DataNode

[atguigu@hadoop101 hadoop-2.7.2]$ hadoop-daemon.sh start datanode
[atguigu@hadoop101 hadoop-2.7.2]$ jps
3461 NameNode
3608 Jps
3561 DataNode
[atguigu@hadoop102 hadoop-2.7.2]$ hadoop-daemon.sh start datanode
[atguigu@hadoop102 hadoop-2.7.2]$ jps
3190 DataNode
3279 Jps
[atguigu@hadoop103 hadoop-2.7.2]$ hadoop-daemon.sh start datanode
[atguigu@hadoop103 hadoop-2.7.2]$ jps
3237 Jps
3163 DataNode

4)思考:每次都一个一个节点启动,如果节点数增加到1000个怎么办?

       早上来了开始一个一个节点启动,到晚上下班刚好完成,下班?

SSH无密登录配置

如图在根目录执行 ssh-keygen -t rsa 

生成公钥和私钥:

[root@hadoop101 ~]# ssh-keygen -t rsa

然后敲(三个回车),就会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)

[root@hadoop101 /]# cd ~
[root@hadoop101 ~]# ssh-keygen -t rsa
Generating public/private rsa key pair.
Enter file in which to save the key (/root/.ssh/id_rsa): 
Enter passphrase (empty for no passphrase): 
Enter same passphrase again: 
Your identification has been saved in /root/.ssh/id_rsa.
Your public key has been saved in /root/.ssh/id_rsa.pub.
The key fingerprint is:
c7:85:3b:2b:75:9d:0a:80:70:cb:d3:eb:79:c0:ac:6e root@hadoop101
The key's randomart image is:
+--[ RSA 2048]----+
|    . .          |
|     + +   .     |
|      = o . .    |
|       o + o . . |
|        S B . o  |
|       . * = .   |
|        = o .    |
|      E. o       |
|     oo          |
+-----------------+

第一种方式:(这种方式比较麻烦)

将公钥拷贝到要免密登录的目标机器上:如下,hadoop1,hadoop2,hadoop3都能访问,hadoop1.

[root@hadoop101 .ssh]$ ssh-copy-id hadoop101
[root@hadoop101 .ssh]$ ssh-copy-id hadoop102
[root@hadoop101 .ssh]$ ssh-copy-id hadoop103

注意:

还需要在hadoop102上采用root账号,配置一下无密登录到hadoop102hadoop103hadoop104

还需要在hadoop103上采用atguigu账号配置一下无密登录到hadoop102hadoop103hadoop104服务器上。

第二种方式:

首先设置hadoop1自己能免密登录自己

[root@hadoop101 .ssh]# ssh-copy-id hadoop101

生成authorized_key

然后~~把.ssh整个文件夹发送到各个机器,这样各个机器之间都能免密登录了!

[root@hadoop101 .ssh]# cd ..
[root@hadoop101 ~]# xsync .ssh
fname=.ssh
pdir=/root
------------------- hadoop101 --------------
sending incremental file list

sent 132 bytes  received 13 bytes  290.00 bytes/sec
total size is 3685  speedup is 25.41
------------------- hadoop102 --------------
root@hadoop102's password: 
sending incremental file list
.ssh/
.ssh/authorized_keys
.ssh/id_rsa
.ssh/id_rsa.pub
.ssh/known_hosts

sent 3992 bytes  received 92 bytes  480.47 bytes/sec
total size is 3685  speedup is 0.90
------------------- hadoop103 --------------
root@hadoop103's password: 
sending incremental file list
.ssh/
.ssh/authorized_keys
.ssh/id_rsa
.ssh/id_rsa.pub
.ssh/known_hosts

sent 3992 bytes  received 92 bytes  907.56 bytes/sec
total size is 3685  speedup is 0.90
[root@hadoop101 ~]# 

.ssh文件夹下(~/.ssh)的文件功能解释

known_hosts

记录ssh访问过计算机的公钥(public key)

id_rsa

生成的私钥

id_rsa.pub

生成的公钥

authorized_keys

存放授权过得无密登录服务器公钥

群起集群

1.  配置slaves

/opt/module/hadoop-2.7.2/etc/hadoop/slaves
[atguigu@hadoop101 hadoop]$ vi slaves

在该文件中增加如下内容:

hadoop101
hadoop102
hadoop103

注意:该文件中添加的内容结尾不允许有空格,文件中不允许有空行。

同步所有节点配置文件

[atguigu@hadoop101 hadoop]$ xsync slaves

2.  启动集群

(1)如果集群是第一次启动,需要格式化NameNode(注意格式化之前,一定要先停止上次启动的所有namenodedatanode进程,然后再删除datalog数据)

[atguigu@hadoop101 hadoop-2.7.2]$ bin/hdfs namenode -format

2)启动HDFS

[atguigu@hadoop101 hadoop-2.7.2]$ sbin/start-dfs.sh
[atguigu@hadoop101 hadoop-2.7.2]$ jps
4166 NameNode
4482 Jps
4263 DataNode
[atguigu@hadoop102 hadoop-2.7.2]$ jps
3218 DataNode
3288 Jps
[atguigu@hadoop103 hadoop-2.7.2]$ jps
3221 DataNode
3283 SecondaryNameNode
3364 Jps

(3)启动YARN

[atguigu@hadoop102 hadoop-2.7.2]$ sbin/start-yarn.sh

注意:NameNodeResourceManger如果不是同一台机器,不能在NameNode上启动 YARN,应该在ResouceManager所在的机器上启动YARN

(4)Web端查看SecondaryNameNode

    (a)浏览器中输入:http://hadoop103:50090/status.html

    (b)查看SecondaryNameNode信息,如图2-41所示。

3.  集群基本测试

(1)上传文件到集群

         上传小文件

[atguigu@hadoop101 hadoop-2.7.2]$ hdfs dfs -mkdir -p /user/atguigu/input
[atguigu@hadoop101 hadoop-2.7.2]$ hdfs dfs -put wcinput/wc.input /user/atguigu/input

         上传大文件

[atguigu@hadoop101 hadoop-2.7.2]$ bin/hadoop fs -put

 /opt/software/hadoop-2.7.2.tar.gz  /user/atguigu/input

(2)上传文件后查看文件存放在什么位置

(a)查看HDFS文件存储路径

[atguigu@hadoop101 subdir0]$ pwd

/opt/module/hadoop-2.7.2/data/tmp/dfs/data/current/BP-938951106-192.168.10.107-1495462844069/current/finalized/subdir0/subdir0

(b)查看HDFS在磁盘存储文件内容

[atguigu@hadoop101 subdir0]$ cat blk_1073741825
hadoop yarn
hadoop mapreduce
atguigu
atguigu

(3)拼接

-rw-rw-r--. 1 atguigu atguigu 134217728 5月  23 16:01 blk_1073741836
-rw-rw-r--. 1 atguigu atguigu   1048583 5月  23 16:01 blk_1073741836_1012.meta
-rw-rw-r--. 1 atguigu atguigu  63439959 5月  23 16:01 blk_1073741837
-rw-rw-r--. 1 atguigu atguigu    495635 5月  23 16:01 blk_1073741837_1013.meta
[atguigu@hadoop101 subdir0]$ cat blk_1073741836>>tmp.file
[atguigu@hadoop101 subdir0]$ cat blk_1073741837>>tmp.file
[atguigu@hadoop101 subdir0]$ tar -zxvf tmp.file

(4)下载

[atguigu@hadoop101 hadoop-2.7.2]$ bin/hadoop fs -get

 /user/atguigu/input/hadoop-2.7.2.tar.gz ./

集群启动/停止方式总结

1.    各个服务组件逐一启动/停止

       (1)分别启动/停止HDFS组件     

hadoop-daemon.sh  start / stop  namenode / datanode / secondarynamenode

       (2)启动/停止YARN

yarn-daemon.sh  start / stop  resourcemanager / nodemanager

2.    各个模块分开启动/停止(配置ssh是前提)常用

       (1)整体启动/停止HDFS

start-dfs.sh   /  stop-dfs.sh

       (2)整体启动/停止YARN

 start-yarn.sh  /  stop-yarn.sh

集群时间同步

注意:集群时间同步就是集群之间的时间保持一致,这和hadoop无关,Hbase也要求集群需要时间同步;

时间同步的方式:找一个机器,作为时间服务器,所有的机器与这台集群时间进行定时的同步,比如,每隔十分钟,同步一次时间。

配置时间同步具体实操:

1.    时间服务器配置(必须root用户)

(1)检查ntp是否安装(如下说明ntp服务已经安装)

[root@hadoop101 桌面]# rpm -qa|grep ntp
ntp-4.2.6p5-10.el6.centos.x86_64
fontpackages-filesystem-1.41-1.1.el6.noarch
ntpdate-4.2.6p5-10.el6.centos.x86_64

(2)检查ntp服务有没有启动

[root@hadoop101 /]# service ntpd status
ntpd 已停

已停:是可以的,如果正在运行需要暂停服务;

          service ntpd stop;
          chkconfig ntpd off; #检查服务是否关闭
          chkconfig --list ntpd; #检查服务是否关闭

(3)修改ntp配置文件

[root@hadoop101 桌面]# vi /etc/ntp.conf

修改内容如下

a)修改1(授权192.168.1.0-192.168.1.255网段上的所有机器可以从这台机器上查询和同步时间)

#restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap  放开注释--改为
restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap

 b)修改2(集群在局域网中,不使用其他互联网上的时间)

server 0.centos.pool.ntp.org iburst
server 1.centos.pool.ntp.org iburst
server 2.centos.pool.ntp.org iburst
server 3.centos.pool.ntp.org iburst
把上面四行注释掉---改为如下
#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst

c)添加3当该节点丢失网络连接,依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步

server 127.127.1.0
fudge 127.127.1.0 stratum 10

(4)修改/etc/sysconfig/ntpd 文件

[root@hadoop101 桌面]# vim /etc/sysconfig/ntpd

增加内容如下(让硬件时间与系统时间一起同步)

SYNC_HWCLOCK=yes

(5)重新启动ntpd服务

[root@hadoop101 桌面]# service ntpd status
ntpd 已停
[root@hadoop101 桌面]# service ntpd start
正在启动 ntpd:                                            [确定]

(6)设置ntpd服务开机启动

[root@hadoop101 桌面]# chkconfig ntpd on

2.    其他机器配置(必须root用户)

(1)在其他机器配置10分钟与时间服务器同步一次

[root@hadoop102 桌面]# crontab -e

编写定时任务如下:(如下代表每隔10分钟去hadoop101去同步时间)

*/10 * * * * /usr/sbin/ntpdate hadoop101

(2)修改任意机器时间(测试使用:10分钟后修改回来)

[root@hadoop102 桌面]# date -s "2017-9-11 11:11:11"

(3)十分钟后查看机器是否与时间服务器同步

[root@hadoop102 桌面]# date

说明:测试的时候可以将10分钟调整为1分钟,节省时间。

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop安装和配置 的相关文章

  • 【经验分享】设置电脑定时开关机

    文章目录 1 定时开机设置 xff08 BIOS固件设置 xff09 2 定时关机设置 放长假回家 xff0c 不想拷贝资料 xff0c 因此打算用todesk远程连接办公 但是工位电脑一直开着 xff0c 还不能睡眠 xff0c 担心会过
  • AirSim多台无人机第一视角键盘控制进阶版

    AirSim多台无人机第一视角键盘控制进阶版 目录 AirSim多台无人机第一视角键盘控制进阶版本文实现的效果前言一 环境依赖二 图像读取与显示1 使用的API2 实时显示的一种方法 三 键盘控制改进总结 本文实现的效果 前言 本篇文章实现
  • 百度APP iOS端内存优化实践-内存管控方案

    01 背景 随着业务的发展 xff0c 百度APP有很多大内存业务场景如直播 短视频 小程序 百度识图等 xff0c 通过线上页面统计数据得知超过150M页面有40个 xff0c 耗内存最多的页面有400M 单个页面不会有内存或者稳定性问题
  • 百度APP iOS端内存优化-原理篇

    一 Mach虚拟内存 1 1 Mach内存简介 iOS系统架构可分为内核驱动层 xff08 Kernel and Device Drivers Layer xff09 核心操作系统层 xff08 Core OS xff09 核心服务层 xf
  • 【图文并茂】手把手教你重装Win10系统

    当遇见电脑出现问题 xff0c 想要重装系统的小伙伴们 xff0c 小编在这里手把手教你重装Win10系统 xff0c 推荐系统之家装机大师 xff0c 他是一款非常好用的一键重装工具 xff0c 有不少小伙伴都在使用 xff0c 但对于刚
  • 【每日一题】1994.好子集的数目

    1994 好子集的数目 题目描述解决方案 xff1a 状态压缩 43 动态规划代码 xff1a Python 题目来源 xff1a LeetCode 原文链接 xff1a https mp weixin qq com s myI7 ZwJM
  • Win11打开移动热点后电脑无法上网怎么办?

    Win11打开移动热点后电脑无法上网怎么办 xff1f 有用户将自己的电脑开启移动热点来使用的时候 xff0c 发现自己的电脑出现了无法上网的情况 那么为什么开启热点之后 xff0c 就会无法进行上网呢 xff1f 来看看以下的解决方法分享
  • abaqus导出全部节点应力值

    一 查询应力点 1 2 3 二 导出应力点 1 点击报告 xff08 E xff09 场输出 xff08 F xff09 2 选择想要输出的参数 xff0c 应用 xff08 提前设置好文件夹与文件名 xff09
  • Docker容器之Dockerfile构建镜像

    目录 一 Dcokerfile概念 1 dockerfile的原理 二 Docker镜像的创建 1 基于已有镜像创建 2 基于本地模板创建 3 基于dockerfile创建 三 镜像分层的原理 1 Docker镜像分层 xff08 基于AU
  • 树莓派——开机指南

    1 准备 硬件准备 树莓派一块 SD卡 xff08 小卡 xff09 读卡器 树莓派电源或安卓手机电源 xff08 功率10w以上 xff0c 不然会导致电压不足会影响其性能 xff09 一台电脑 xff08 可以没有显示屏和鼠标键盘 xf
  • pytesseract的使用 | python识别验证码

    目录 1 安装tesseract2 安装pytesseract3 修改包中部分代码4 代码网站测试 1 安装tesseract 详见 xff1a https blog csdn net lijiamingccc article detail
  • 从一道面试题彻底搞懂hashCode与equals的作用与区别及应当注意的细节

    最近去面试了几家公司 xff0c 被问到hashCode的作用 xff0c 虽然回答出来了 xff0c 但是自己还是对hashCode和equals的作用一知半解的 xff0c 所以决定把它们研究一下 以前写程序一直没有注意hashCode
  • powershell 远程执行命令失败

    Connecting to remote server failed with the following error message The WinRM client cannot process the request If the a
  • Hypermesh+Abaqus加载问题

    Hypermesh 43 Abaqus加载问题 参考视频载荷加载问题总结 参考视频 Hypermesh Abaqus联合仿真案例指导1 垂直载荷作用下的平板受力分析 https www bilibili com video av748087
  • C++11智能指针(五):shared_ptr的循环引用的问题及weak_ptr

    shared ptr的主要优点是当不再使用时会自动释放相关的内存 但是如果我们不仔细使用shared ptr xff0c 那么这个优势就会变成一个劣势 我们来看看 xff1a 假设我设计一个二叉树 xff0c 并在其中包含一个指向左右子节点
  • ubuntu编译安装mysql

    使用的gcc版本7 5 0 1 先安装bison libtool gettext texinfo flex cmake openssl ncurses等软件 这些软件的源码编译过程见我前面的博客 2 下载源码 xff0c 注意下载有boos
  • wsl重启及如何在wsl下执行cmd命令

    wsl重启 本质上修改环境变量source不生效 想重启一下又要打开命令行 其实wsl可以直接调用windows下的程序 因此只需要执行 wsl exe 但是执行习惯了reboot 可以在shell的配置文件中配置alias span cl
  • 编译nginx时几种常见错误

    在对nginx进行编译时报了如下图所示错误 src os unix ngx user c In function ngx libc crypt src os unix ngx user c 36 7 error struct crypt d
  • C++利用libtelnet库完成客户端类封装telnet收发

    CMeshSocket h头文件 库文件网址https github com seanmiddleditch libtelnet 需要根据返回数据调整接受规则 xff0c 我连接设备服务器为一问一答 xff0c 返回数据为JSON且以 n结
  • 如何安装Anaconda并解决“‘conda‘ 不是内部或外部命令,也不是可运行的程序”的问题

    如何安装Anaconda 我们在安装完Anaconda后可能会遇到 conda 不是内部或外部命令 xff0c 也不是可运行的程序的问题 xff0c 下面将会放置完整的安装过程和解决这个问题 进入网站 xff0c 下载miniconda h

随机推荐