Hadoop学习之Hadoop完全分布式集群安装

2023-11-09

注：本文的主要目的是为了记录自己的学习过程，也方便与大家做交流。转载请注明来自：

http://blog.csdn.net/ab198604/article/details/8250461

要想深入的学习hadoop数据分析技术，首要的任务是必须要将hadoop集群环境搭建起来，可以将hadoop简化地想象成一个小软件，通过在各个物理节点上安装这个小软件，然后将其运行起来，就是一个hadoop分布式集群了。

说来简单，但是应该怎么做呢？不急，本文的主要目的就是让新手看了之后也能够亲自动手实施这些过程。由于本人资金不充裕，只能通过虚拟机来实施模拟集群环境，虽然说是虚机模拟，但是在虚机上的hadoop的集群搭建过程也可以使用在实际的物理节点中，思想是一样的。也如果你有充裕的资金，自己不介意烧钱买诸多电脑设备，这是最好不过的了。

也许有人想知道安装hadoop集群需要什么样的电脑配置，这里只针对虚拟机环境，下面介绍下我自己的情况：

CPU：Intel酷睿双核 2.2Ghz

内存: 4G

硬盘: 320G

系统：xp

老实说，我的本本配置显然不够好，原配只有2G内存，但是安装hadoop集群时实在是很让人崩溃，本人亲身体验过后实在无法容忍，所以后来再扩了2G，虽然说性能还是不够好，但是学习嘛，目前这种配置还勉强可以满足学习要求，如果你的硬件配置比这要高是最好不过的了，如果能达到8G，甚至16G内存，学习hadoop表示无任何压力。

说完电脑的硬件配置，下面说说本人安装hadoop的准备条件：

1 安装Vmware WorkStation软件

有些人会问，为何要安装这个软件，这是一个VM公司提供的虚拟机工作平台，后面需要在这个平台上安装linux操作系统。具体安装过程网上有很多资料，这里不作过多的说明。

2 在虚拟机上安装linux操作系统

在前一步的基础之上安装linux操作系统，因为hadoop一般是运行在linux平台之上的，虽然现在也有windows版本，但是在linux上实施比较稳定，也不易出错，如果在windows安装hadoop集群，估计在安装过程中面对的各种问题会让人更加崩溃，其实我还没在windows上安装过，呵呵~

在虚拟机上安装的linux操作系统为ubuntu10.04，这是我安装的系统版本，为什么我会使用这个版本呢，很简单，因为我用的熟^_^其实用哪个linux系统都是可以的，比如，你可以用centos, redhat, fedora等均可，完全没有问题。在虚拟机上安装linux的过程也在此略过，如果不了解可以在网上搜搜，有许多这方面的资料。

3 准备3个虚拟机节点

其实这一步骤非常简单，如果你已经完成了第2步，此时你已经准备好了第一个虚拟节点，那第二个和第三个虚拟机节点如何准备？可能你已经想明白了，你可以按第2步的方法，再分别安装两遍linux系统，就分别实现了第二、三个虚拟机节点。不过这个过程估计会让你很崩溃，其实还有一个更简单的方法，就是复制和粘贴，没错，就是在你刚安装好的第一个虚拟机节点，将整个系统目录进行复制，形成第二和第三个虚拟机节点。简单吧！~~

很多人也许会问，这三个结点有什么用，原理很简单，按照hadoop集群的基本要求，其中一个是master结点，主要是用于运行hadoop程序中的namenode、secondorynamenode和jobtracker任务。用外两个结点均为slave结点，其中一个是用于冗余目的，如果没有冗余，就不能称之为hadoop了，所以模拟hadoop集群至少要有3个结点，如果电脑配置非常高，可以考虑增加一些其它的结点。slave结点主要将运行hadoop程序中的datanode和tasktracker任务。

所以，在准备好这3个结点之后，需要分别将linux系统的主机名重命名（因为前面是复制和粘帖操作产生另两上结点，此时这3个结点的主机名是一样的），重命名主机名的方法：

Vim /etc/hostname

通过修改hostname文件即可，这三个点结均要修改，以示区分。

以下是我对三个结点的ubuntu系统主机分别命名为：master, node1, node2

基本条件准备好了，后面要干实事了，心急了吧，呵呵，别着急，只要跟着本人的思路，一步一个脚印地，一定能成功布署安装好hadoop集群的。安装过程主要有以下几个步骤：

一、配置hosts文件

二、建立hadoop运行帐号

三、配置ssh免密码连入

四、下载并解压hadoop安装包

五、配置namenode,修改site文件

六、配置hadoop-env.sh文件

七、配置masters和slaves文件

八、向各节点复制hadoop

九、格式化namenode

十、启动hadoop

十一、用jps检验各后台进程是否成功启动

十二、通过网站查看集群情况

下面我们对以上过程，各个击破吧！~~

一、配置hosts文件

先简单说明下配置hosts文件的作用，它主要用于确定每个结点的IP地址，方便后续

master结点能快速查到并访问各个结点。在上述3个虚机结点上均需要配置此文件。由于需要确定每个结点的IP地址，所以在配置hosts文件之前需要先查看当前虚机结点的IP地址是多少，可以通过ifconfig命令进行查看，如本实验中，master结点的IP地址为：

如果IP地址不对，可以通过ifconfig命令更改结点的物理IP地址，示例如下：

通过上面命令可以将IP改为192.168.1.100。将每个结点的IP地址设置完成后，就可以配置hosts文件了，hosts文件路径为;/etc/hosts，我的hosts文件配置如下，大家可以参考自己的IP地址以及相应的主机名完成配置

二、建立hadoop运行帐号

即为hadoop集群专门设置一个用户组及用户，这部分比较简单，参考示例如下：

sudo groupadd hadoop //设置hadoop用户组

sudo useradd –s /bin/bash –d /home/zhm –m zhm –g hadoop –G admin //添加一个zhm用户，此用户属于hadoop用户组，且具有admin权限。

sudo passwd zhm //设置用户zhm登录密码

su zhm //切换到zhm用户中

上述3个虚机结点均需要进行以上步骤来完成hadoop运行帐号的建立。

三、配置ssh免密码连入

这一环节最为重要，而且也最为关键，因为本人在这一步骤裁了不少跟头，走了不少弯

路，如果这一步走成功了，后面环节进行的也会比较顺利。

SSH主要通过RSA算法来产生公钥与私钥，在数据传输过程中对数据进行加密来保障数

据的安全性和可靠性，公钥部分是公共部分，网络上任一结点均可以访问，私钥主要用于对数据进行加密，以防他人盗取数据。总而言之，这是一种非对称算法，想要破解还是非常有难度的。Hadoop集群的各个结点之间需要进行数据的访问，被访问的结点对于访问用户结点的可靠性必须进行验证，hadoop采用的是ssh的方法通过密钥验证及数据加解密的方式进行远程安全登录操作，当然，如果hadoop对每个结点的访问均需要进行验证，其效率将会大大降低，所以才需要配置SSH免密码的方法直接远程连入被访问结点，这样将大大提高访问效率。

OK，废话就不说了，下面看看如何配置SSH免密码登录吧！~~

(1) 每个结点分别产生公私密钥。

键入命令：

以上命令是产生公私密钥，产生目录在用户主目录下的.ssh目录中，如下：

Id_dsa.pub为公钥，id_dsa为私钥，紧接着将公钥文件复制成authorized_keys文件，这个步骤是必须的，过程如下：

用上述同样的方法在剩下的两个结点中如法炮制即可。

(2) 单机回环ssh免密码登录测试

即在单机结点上用ssh进行登录，看能否登录成功。登录成功后注销退出，过程如下：

注意标红圈的指示，有以上信息表示操作成功，单点回环SSH登录及注销成功，这将为后续跨子结点SSH远程免密码登录作好准备。

用上述同样的方法在剩下的两个结点中如法炮制即可。

(3) 让主结点(master)能通过SSH免密码登录两个子结点（slave）

为了实现这个功能，两个slave结点的公钥文件中必须要包含主结点的公钥信息，这样

当master就可以顺利安全地访问这两个slave结点了。操作过程如下：

如上过程显示了node1结点通过scp命令远程登录master结点，并复制master的公钥文件到当前的目录下，这一过程需要密码验证。接着，将master结点的公钥文件追加至authorized_keys文件中，通过这步操作，如果不出问题，master结点就可以通过ssh远程免密码连接node1结点了。在master结点中操作如下：

由上图可以看出，node1结点首次连接时需要，“YES”确认连接，这意味着master结点连接node1结点时需要人工询问，无法自动连接，输入yes后成功接入，紧接着注销退出至master结点。要实现ssh免密码连接至其它结点，还差一步，只需要再执行一遍ssh node1，如果没有要求你输入”yes”，就算成功了，过程如下：

如上图所示，master已经可以通过ssh免密码登录至node1结点了。

对node2结点也可以用同样的方法进行，如下图：

Node2结点复制master结点中的公钥文件

Master通过ssh免密码登录至node2结点测试：

第一次登录时：

第二次登录时：

表面上看，这两个结点的ssh免密码登录已经配置成功，但是我们还需要对主结点master也要进行上面的同样工作，这一步有点让人困惑，但是这是有原因的，具体原因现在也说不太好，据说是真实物理结点时需要做这项工作，因为jobtracker有可能会分布在其它结点上，jobtracker有不存在master结点上的可能性。

对master自身进行ssh免密码登录测试工作：

至此，SSH免密码登录已经配置成功。

四、下载并解压hadoop安装包

关于安装包的下载就不多说了，不过可以提一下目前我使用的版本为hadoop-0.20.2，

这个版本不是最新的，不过学习嘛，先入门，后面等熟练了再用其它版本也不急。而且《hadoop权威指南》这本书也是针对这个版本介绍的。

注：解压后hadoop软件目录在/home/zhm/hadoop下

五、配置namenode,修改site文件

在配置site文件之前需要作一些准备工作，下载java最新版的JDK软件，可以从oracle官网上下载，我使用的jdk软件版本为：jdk1.7.0_09，我将java的JDK解压安装在/opt/jdk1.7.0_09目录中，接着配置JAVA_HOME宏变量及hadoop路径，这是为了方便后面操作，这部分配置过程主要通过修改/etc/profile文件来完成，在profile文件中添加如下几行代码：

然后执行：

让配置文件立刻生效。上面配置过程每个结点都要进行一遍。

到目前为止，准备工作已经完成，下面开始修改hadoop的配置文件了，即各种site文件，文件存放在/hadoop/conf下，主要配置core-site.xml、hdfs-site.xml、mapred-site.xml这三个文件。

Core-site.xml配置如下：

Hdfs-site.xml配置如下：

接着是mapred-site.xml文件：

六、配置hadoop-env.sh文件

这个需要根据实际情况来配置。

七、配置masters和slaves文件

根据实际情况配置masters的主机名，在本实验中，masters主结点的主机名为master,

于是在masters文件中填入：

同理，在slaves文件中填入：

八、向各节点复制hadoop

向node1节点复制hadoop：

向node2节点复制hadoop:

这样，结点node1和结点node2也安装了配置好的hadoop软件了。

九、格式化namenode

这一步在主结点master上进行操作：

注意：上面只要出现“successfully formatted”就表示成功了。

十、启动hadoop

这一步也在主结点master上进行操作：

十一、用jps检验各后台进程是否成功启动

在主结点master上查看namenode,jobtracker,secondarynamenode进程是否启动。

如果出现以上进程则表示正确。

在node1和node2结点了查看tasktracker和datanode进程是否启动。

先来node1的情况:

下面是node2的情况：

进程都启动成功了。恭喜~~~

十二、通过网站查看集群情况

在浏览器中输入：http://192.168.1.100:50030，网址为master结点所对应的IP：

在浏览器中输入：http://192.168.1.100:50070，网址为master结点所对应的IP：

至此，hadoop的完全分布式集群安装已经全部完成，可以好好睡个觉了。~~

原文地址：点击打开链接

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop学习之Hadoop完全分布式集群安装的相关文章

线程“main”中出现异常java.lang.UnsupportedClassVersionError，不支持的major.minor版本52.0

我尝试在 hadoop 1 0 4 上运行 WordCount 示例但收到以下错误 Exception in thread main java lang UnsupportedClassVersionError WordCount Uns
HDFS容量：如何阅读“dfsadmin报告”

我使用的是 Hadoop 2 6 0 当我运行 hdfs dfsadmin report 时我得到类似这样的信息简化 Configured Capacity 3 TB Present Capacity 400GB DFS Remaini
java.lang.IllegalArgumentException：错误的 FS：，预期：hdfs://localhost:9000

我正在尝试实现reduce side join 并使用mapfile reader来查找分布式缓存但在stderr中检查时它没有查找值它显示以下错误 lookupfile文件已经存在于hdfs中并且似乎已正确加载进入缓存如标准输出中
无法使用 PDI 步骤连接到 HDFS

我已经配置成功了Hadoop 2 4 in an Ubuntu 14 04 虚拟机 from a 视窗8系统 Hadoop 安装工作绝对正常而且我还可以从 Windows 浏览器查看 Namenode 附图如下所以我的主机名是 ubu
Hadoop：处理大型序列化对象

我正在开发一个应用程序来使用 Hadoop 框架处理和合并几个大型 java 序列化对象顺序 GB 大小 Hadoop 存储将文件块分布在不同的主机上但由于反序列化需要所有块都存在于单个主机上因此它会极大地影响性能我该如何处理这
Curl下载到HDFS

我有这个代码 curl o fileName csv url xargs hdfs dfs moveFromLocal 1 somePath 当我执行此代码时 curl 将请求中的值放入 fileName csv 中该文件将移动到 HDF
无法从 JAR 文件加载主类

我有一个 Spark scala 应用程序我尝试显示一条简单的消息 Hello my App 当我编译它时sbt compile并运行它sbt run没关系我成功显示了我的消息但他显示了错误像这样 Hello my applicat
将多个前缀行过滤器设置为扫描仪 hbase java

我想创建一台扫描仪它可以为我提供带有 2 个前缀过滤器的结果例如我想要其键以字符串 x 开头或以字符串 y 开头的所有行目前我知道只能使用一个前缀方法如下 scan setRowPrefixFilter prefixFiltet 在
Hive 中字符串数据类型是否有最大大小？

谷歌了很多但没有在任何地方找到它或者这是否意味着只要允许集群 Hive 就可以支持任意大字符串数据类型如果是这样我在哪里可以找到我的集群可以支持的最大字符串数据类型大小提前致谢 Hive 列表的当前文档STRING作为有效的数据类
在 Hive 中分解一行 XML 数据

我们将 XML 数据作为名为 XML 的单个字符串列加载到 Hadoop 中我们正在尝试检索数据级别并将其标准化或分解为单行进行处理你知道就像表格一样已经尝试过分解功能但没有得到我们想要的示例 XML
Spark MLLib 存在问题，导致概率和预测对于所有内容都相同

我正在学习如何将机器学习与 Spark MLLib 结合使用目的是对推文进行情感分析我从这里得到了一个情感分析数据集 http thinknook com wp content uploads 2012 09 Sentiment Ana
使用 Hadoop 映射两个数据集

假设我有两个键值数据集数据集A和B 我们称它们为数据集A和B 我想用 B 组的数据更新 A 组中的所有数据其中两者在键上匹配因为我要处理如此大量的数据所以我使用 Hadoop 进行 MapReduce 我担心的是为了在 A 和 B
R+Hadoop：如何从HDFS读取CSV文件并执行mapreduce？

在以下示例中 small ints to dfs 1 1000 mapreduce input small ints map function k v cbind v v 2 MapReduce函数的数据输入是一个名为small ints的
hive创建表的多个转义字符

我正在尝试将带有管道分隔符的 csv 加载到配置单元外部表数据值包含单引号双引号括号等使用 Open CSV 版本 2 3 测试文件 csv id name phone 1 Rahul 123 2 Kumar s 456 3 Nee
遍历 ArrayWritable - NoSuchMethodException

我刚刚开始使用 MapReduce 并且遇到了一个奇怪的错误我无法通过 Google 回答该错误我正在使用 ArrayWritable 制作一个基本程序但是当我运行它时在Reduce过程中出现以下错误 java lang Runti
如何使用 Amazon 的 EMR 在 CLI 中使用自定义 jar 指定 mapred 配置和 java 选项？

我想知道如何指定mapreduce配置例如mapred task timeout mapred min split size等等当使用自定义 jar 运行流作业时当我们使用 ruby 或 python 等外部脚本语言运行时我们可以使
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
将 CSV 转换为序列文件

我有一个 CSV 文件我想将其转换为 SequenceFile 我最终将使用它来创建 NamedVectors 以在聚类作业中使用我一直在使用 seqdirectory 命令尝试创建 SequenceFile 然后使用 nv 选项将该输
Sqoop - 绑定到 YARN 队列

因此使用 MapReduce v2 您可以使用绑定到某些 YARN 队列来管理资源和优先级基本上通过使用 hadoop jar xyz jar D mapreduce job queuename QUEUE1 input output

随机推荐

File类的知识1

File类递归 java io File 类是文件和目录路径名的抽象表示主要用于文件和目录的创建查找和删除等操作 java io File类文件和目录路径名的抽象表示形式 java把电脑中的文件和文件夹目录封装为了一个File类
python数据可视化毕业设计题目_基于Python的数据可视化

基于 Python 的数据可视化杨凯利 1 山美娟 2 期刊名称现代信息科技年卷期 2019 000 005 摘要在大数据快速发展的今天 Python 丰富的工具包在科学计算文件处理数据可视化等领域越来越凸显其价值能够发
UWB信号对服务器有没有干扰,UWB组网定位的系统及方法技术方案

技术实现步骤摘要本专利技术涉及一种UWB组网定位的系统更具体地涉及一种UWB组网定位的系统及方法技术介绍 UWB UltraWideband 是一种无载波通信技术利用纳秒至微微秒级的非正弦波窄脉冲传输数据通过在较宽的频谱上传送极
DEDECMS调用指定ID文章内容

备忘自用 dede arclist idlist 113 114 115 116 channelid 1 addfields body li a href div class show h2 field shorttitle h2 p fi
【华为OD】最佳对手_贪心思维

目录一题目描述二输入描述三输出描述 3 1 用例四题目解析五 Java玩法六 JavaScript玩法一题目描述游戏里面队伍通过匹配实力相近的对手进行对战但是如果匹配的队伍实力相差太大对于双方游戏体验都不会太
1330. 翻转子数组得到最大的数组值

贪心法 1 翻转中间则使用最小区间最大值最大区间最小值 2 基准为数组值这里不一定为正收益 2 翻转头或者尾则位基准重新计算翻转点基准 sum abs num i num i 1 1 lt i
一阶系统的时域和频域分析

文章目录 1 一阶系统传递函数的标准形式 2 一阶系统动态性能指标 2 1 时域响应下的性能指标 2 2 系统单位阶跃响应 2 2 其他典型输入下一阶系统的响应和动态性能 3 惯性环节 4 一阶系统的频域分析 1 一阶系统传递函数的标准形式
yaml for java_java操作yaml文件

前言 YAML YAML Ain t Markup Language 也可以叫做YML 是一种人性化的数据序列化的语言类似于XML JSON SpringBoot的配置文件就支持yaml文件官网语法大小写敏感使用缩进表示层级关系
快速上手笔记，PyTorch模型训练实用教程（附代码）

前言自 2017 年 1 月 PyTorch 推出以来其热度持续上升一度有赶超 TensorFlow 的趋势 PyTorch 能在短时间内被众多研究人员和工程师接受并推崇是因为其有着
JAVA程序员预备知识&初识JAVA

JAVA程序员预备知识什么是计算机能够按照程序运行自动高速处理海量数据的现代化智能电子设备由硬件和软件组成广泛应用在科学计算数据处理自动控制人工智能等计算机硬件一些物理装置按系统结构的要求构成一个有机整体组成 CP
Linux 快捷键

Linux 快捷键文章目录 linux控制台快捷键 linux控制台快捷键 ctrl a e Ctrl Shift n 新终端 Shift Ctrl T 打开新的标签页 Shift Ctrl W 关闭标签页 Alt 数字切换至对应的标签
Hive--HiveQL：查询

4 查询 4 1 select from语句 4 1 1 基本操作 select是SQL的射影算子 from子句标识了从哪个表视图或嵌套查询中选择记录回顾之前创建的employees表 hive mydb gt create table
【Detectron2】入门05 Schedules Faster R-CNN

Detectron2的Learning Rate和Schedules 1x and 3x schedules 1x 16 images iterations 90 000 iterations in total with the LR re
14 - Spring5 学习笔记 - 整合日志框架、@Nullable 注解

Spirng5 框架新功能 1 整个 Spring5 框架基于 Java8 运行时兼容 JDK9 许多不建议使用的类和方法在代码库中删除 2 Spring5 框架自带了通用的日志封装 1 Spring5 已经移除了 Log4jConfigL
c++ 不插入重复元素但也不排序_十大经典排序算法，看这篇文章就够了

微信公众号小超说如果你觉得对你有帮助欢迎分享如果你想系统地学习建议在电脑端阅读我想大家学习算法之旅的开端就是各种排序算法吧的确排序算法广泛的应用性以及它的简洁基础等性质是初学者的不二之选那今天我就带着你复习回顾以下各种经典
Docker镜像相关操作有哪些?

什么是Docker Docker是一个开源的应用容器引擎它让开发者可以打包他们的应用以及依赖包到一个可移植的容器中然后发布到安装了任何 Linux 发行版本的机器上 Docker基于LXC来实现类似VM的功能可以在更有限的硬件资源上提
2020年第十一届蓝桥杯省赛javab组寻找2020

简单的模拟向右向下向右下 package 算法 import java util Scanner public class 寻找20 static int N 100000 4 5 static int M 1000 5 static
python实现车牌识别系统

车牌识别系统算法参考 http www zengqiang club blog 34 GUI参考 https blog csdn net wzh191920 article details 79589506 基于opencv的模板识别来实
设计模式的应用场景(9)--装饰模式

装饰模式定义装饰模式以对客户端透明的方式扩展对象的功能是继承方案的一个替代方案提供比继承更多的灵活性优点能够提供比使用继承关系更加灵活的拓展对象的功能它可以动态增加对象的功能并且可以随意组合这些功能缺点使用装饰模式进行设计
Hadoop学习之Hadoop完全分布式集群安装

注本文的主要目的是为了记录自己的学习过程也方便与大家做交流转载请注明来自 http blog csdn net ab198604 article details 8250461 要想深入的学习hadoop数据分析技术首要的任务是必须

Hadoop学习之Hadoop完全分布式集群安装

Hadoop学习之Hadoop完全分布式集群安装 的相关文章

随机推荐

热门标签

Hadoop学习之Hadoop完全分布式集群安装的相关文章