docker搭建hadoop hdfs完全分布式集群

2023-11-20

1 制作hadoop镜像
参见 https://www.cnblogs.com/rmxd/p/12051866.html
该博客中只参考制作镜像部分，固定IP及启动集群的部分应该跳过。
这里注意，在做好的镜像里，要安装 which 工具，否则在执行 hdfs 命令时会报命令不存在异常。

yum install which -y

2 启动容器

docker run --name hmaster --hostname hmaster --network hadoop -d -P \
-p 50070:50070 \
-p 50010:50010 \
-p 9000:9000 \
-p 8088:8088 \
-p 50090:50090 \
taiga/hadoop:v1.1

docker run --name hslave1 --hostname hslave1 --network hadoop -d -P \
-p 51070:51070 \
-p 51010:51010 \
-p 9100:9100 \
-p 8188:8188 \
-p 51090:51090 \
taiga/hadoop:v1.1

docker run --name hslave2 --hostname hslave2 --network hadoop -d -P \
-p 52070:52070 \
-p 52010:52010 \
-p 9200:9200 \
-p 8288:8288 \
-p 52090:52090 \
taiga/hadoop:v1.1

可以看到，我的镜像名称是 taiga/hadoop:v1.1
这里启动了三个容器，一个master，两个slave。注意要向外映射 51010 52010 端口，这两个端口用作 datanode 的控制端口，用于远程上传文件时，可以将datanode在端口映射给宿主机。

3 master免密登陆slave
进行 hmaster 容器，执行以下命令

ssh-keygen
# 剩下的一路回车即可

ssh-copy-id hmaster
# master也是免下密，根据提示输入yes以及主机密码
ssh-copy-id hslave1
ssh-copy-id hslave2

4 配置
hmaster core-site.xml

<configuration>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://hmaster:9000</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/usr/local/hadoop/tmp</value>
        </property>
         <property>
                 <name>fs.trash.interval</name>
                 <value>1440</value>
        </property>
</configuration>

hmaster hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
    <property>
        <name>dfs.permissions</name>
        <value>false</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/var/bigdata/hadoop/full/dfs/name</value>
     </property>
     <property>
          <name>dfs.datanode.data.dir</name>
          <value>/var/bigdata/hadoop/full/dfs/data</value>
      </property>
      <property>
           <name>dfs.namenode.secondary.http-address</name>
           <!-- 这里是启动 hslave1 时映射的端口-->
           <value>hslave1:51090</value>
       </property>
       <property>
            <name>dfs.namenode.checkpoint.dir</name>
            <value>/var/bigdata/hadoop/full/dfs/secondary</value>
        </property>
</configuration>

hmaster hadoop-env.sh
在hadoop-env.sh里添加JAVA_HOME，这是必须要做的，因为当master节点ssh到slave节点上时，是获取不到slave节点的环境变量的，因此也拿不到 slave 节点的 $JAVA_HOME ，所以在hadoop-env.sh 里必须配置为绝对路径。

export JAVA_HOME=/usr/local/jdk1.8

hmaster slaves
在该文件里配置上slave节点的域名。因为在启动容器时已经将master和slave放在了同一个network里，所以直接使用域名即可相通通信，这也是不需要参照刚才那个博主中“固定IP”这一步骤的原因了。

hslave1
hslave2

将hmaster节点的配置分发到hslave hslave2中

cd /usr/local/hadoop/etc
scp ./hadoop hslave1:`pwd`
scp ./hadoop hslave2:`pwd`

配置slave节点
配置hslave1和hslave2的 hdfs-site.xml。为了将datanode的控制端口映射到宿主机，我们分别将 hslave1 和 hslave2的控制端口改成了 51010 和 52010, 所以要配置hslave1和hslave2的 hdfs-site.xml。

在hslave1中添加，是添加，其它的配置不动

    <property>
        <name>dfs.datanode.address</name>
        <value>hslave1:51010</value>
    </property>

在hslave2中添加，是添加，其它的配置不动

    <property>
        <name>dfs.datanode.address</name>
        <value>hslave2:52010</value>
    </property>

到这里所有的配置都完毕了。

5 启动
回到hmaster节点，执行

hdfs namenode -format
/usr/local/hadoop/sbin/start-dfs.sh

6 验证
OKAY ，集群搭建完毕。下面进行验证
浏览器访问 http://x.x.x.x:50070/dfshealth.html#tab-overview 。访问前首先保证虚拟机 50070 端口开放，或是虚拟机关闭防火墙。出现以下页面表示搭建成功：

来看一下datanode

这里的两个端口就是在 hslave1 和 hslave2里配置的

7 上传文件
在容器里上传文件肯定是会成功的了，就不验证了，下面验证一下通过 java 客户端上传个文件。
首先在电脑的 hosts 文件里加两行配置

x.x.x.x hslave1
x.x.x.x hslave1

x.x.x.x就是你虚拟机的ip

上传文件代码示例

package cn.hgd11.hadoop;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;

import java.io.BufferedInputStream;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;
import java.nio.ByteBuffer;

public class HdfsTest {
    private Configuration configuration;
    private long start;
    private long end;
    private FileSystem fs;

    @Before
    public void before () throws URISyntaxException, IOException, InterruptedException {
        start = System.currentTimeMillis();

        configuration = new Configuration(true);
        // 这行代码一定要有，表示从namenode拉回的datanode信息是域名，而不是ip，因为docker里的容器ip在本机是访问不到的
        configuration.set("dfs.client.use.datanode.hostname", "true");
        URI uri = new URI("hdfs://node128:9000/");
        fs = FileSystem.get(uri, configuration, "root");
    }

    @Test
    public void upload () throws IOException {
        try {
            String pathStr = "D:\\java\\mash\\资料\\hbase-book-master\\ch07\\test-data.txt";

            Path src = new Path(pathStr);
            Path dst = new Path("/hbase-book-code/ch07/test-data.txt");
            fs.copyFromLocalFile(src, dst);

            System.out.println("上传完成");
        } catch (IllegalArgumentException e) {
            e.printStackTrace();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    @After
    public void after () throws IOException {
        if (fs != null) {
            fs.close();
        }

        System.out.println("程序耗时：" + (System.currentTimeMillis() - start));
    }

}

上传成功后的效果

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

docker搭建hadoop hdfs完全分布式集群的相关文章

使用 ecs-cli 在 AWS 上部署 docker 时遇到问题

我在 ECS 上有一个存储库已使用 ecs cli 创建了一个集群 ecs cli configure region us west 2 profile
Windows Server 2016 中的 Docker 无法运行

我有一个新的 Windows Server 2016 并应用了所有更新我按照来自的命令快速开始 https learn microsoft com en us virtualization windowscontainers quick
如何从最新版本的 Ubuntu (18.10) 运行使用 SystemD 的 Docker 容器？

我正在尝试执行使用 ubuntu latest 构建的 Docker 映像并且在运行容器时不断收到 SystemD 错误消息 System has not been booted with systemd as init system P
列出 Docker 容器的卷

如何列出 Docker 容器的所有卷我知道它应该很容易获得但我找不到如何获得另外是否可以获取已删除容器的卷并将其删除您可以使用 docker ps 获取容器 id 并写入 docker检查container id 像这儿 Volu
django_debug_toolbar 和 Docker

因此我让 docker 和 Django 在本地工作首先从 Dockerfile 构建一个映像然后使用 Fig 获取 postgres 映像将其链接到基础映像然后运行本地服务器除了 django debug toolbar 之外
如何对 Docker 容器中运行的 Spring Boot 应用程序进行健康检查？

我正在 Docker 容器中运行 Spring Boot 应用程序使用 Docker 文件启动容器中的应用程序如何检查容器内 Spring Boot 应用程序的运行状况如果容器停止或应用程序未运行我需要根据运行状况检查自动重新启动容
将当前目录复制到 docker 镜像

构建 Docker 映像时我需要将同一目录中的所有文件复制到 Docker 映像中我尝试这样做 ADD HOME src RUN ls HOME src 但似乎不起作用 ls cannot access root src No such
无法在 Visual Studio 2022 中启动调试适配器

如果我创建一个启用了 Docker 支持的 ASP Core MVC 目标框架 5 0 并启动它我会得到发生一个或多个错误无法启动调试适配器附加信息可能会在输出窗口中可用操作被取消这是调试输出启用 DebugAdapterH
遍历 ArrayWritable - NoSuchMethodException

我刚刚开始使用 MapReduce 并且遇到了一个奇怪的错误我无法通过 Google 回答该错误我正在使用 ArrayWritable 制作一个基本程序但是当我运行它时在Reduce过程中出现以下错误 java lang Runti
Docker 日志中的 Python 异常标记为流：stdout

我想解析和处理来自 docker 容器的所有错误但当我期望 stderr 时 Python 异常标记为 stdout 举个简单的例子app py raise Exception 然后我在 docker 容器中运行这个文件但在 var l
docker：无法连接到位于unix:///var/run/docker.sock的Docker守护进程。 docker 守护进程是否正在运行？

我通过 Visual Studio Code VScode 版本 1 66 远程连接到学校服务器 Ubuntu 20 04 2 LTS 来执行一些任务今天我关注 docker com https docs docker com engin
Kubernetes Web UI（仪表板）缺少图表

我已经使用 Kubeadm v1 6 安装了 Docker v1 13 和 Kubernetes 然后我安装了 Web UI 仪表板我可以访问它但缺少 CPU 内存使用图为什么会发生这种情况对我来说安装后使用图就起作用了heaps
如何在 Linux 主机上的 docker 容器中挂载目录 [重复]

这个问题在这里已经有答案了我想将一个目录从 docker 容器挂载到本地文件系统该目录是网站根目录我需要能够使用任何编辑器在本地计算机上编辑它我知道我可以跑docker run v local path container path
如何使用本地 nuget 包源进行 Dockerfile dotnet 恢复 [重复]

这个问题在这里已经有答案了我正在尝试使用本地 nuget 包进行 dotnet 恢复我尝试按照本教程进行操作无需互联网即可恢复 dotnet https blog bigfont ca dotnet restore without a
hive 从两个数组创建映射或键/值对

我有两个具有相同数量值的数组它们映射为 1 1 我需要从这两个数组创建一个键值对或映射键值任何想法或提示都会有帮助当前表结构 USA WEST NUMBER Street City 135 Pacific Irvine USA
使用 Visual Studio Tools for Docker 部署和调试远程 Linux Docker 容器

我试图弄清楚如何使用部署到远程容器适用于 Docker 的 Visual Studio 工具并调试我的 ASP NET Core 应用程序实际上我正在以下场景中工作我的开发机器是 Hyper V 虚拟机 Docker is inst
docker：来自守护进程的错误响应：安装被拒绝：批准/path/to/file不存在

我的泊坞窗命令 docker run it rm v pwd mutcompute ens net v3 给我以下错误 docker Error response from daemon Mounts denied approving Us
自动输入以在 Dockerfile 中对脚本进行多项选择

我有一个像blow这样的shell脚本我想在a中执行它Dockerfle并使用自动选择echo e 1 Which application you d select 1 nginx 2 squid 3 hproxy Please ente
如何在CentOS7中更改docker守护进程根目录

我在 CentOS7 上运行 docker 我想更改我的基本目录 var lib docker to data docker I found this https docs docker com engine reference comma
如何从主机连接到 Docker Postgres 容器

我按照以下说明搭建了一个 Rails 开发环境https docs docker com compose rails https docs docker com compose rails 它可以工作但我无法从主机连接到 Postgres

随机推荐

Flutter 碰到的各种坑持续更新

Android转flutter 也有1年多了在新公司将一个产品用flutter从零开始开发感觉flutter 还是不太稳定各种问题还是比较多总之这次体验还是比较差 Error on line 21 column 5 of pubsp
Kafka——Mac搭建kafka环境

1 下载Kafka安装包下载地址将压缩包移动到 usr local mv kafka 2 12 3 1 0 tgz usr local 解压 tar zxvf kafka 2 12 3 1 0 tgz 2 启动启动zookeeper
WEB安全测试手册

概述目的适用读者适用范围注意事项测试级别说明测试过程示意图 1 服务器信息收集 1 1 运行帐号权限测试 1 2 Web服务器端口扫描 1 3 HTTP方法测试 1 4 HTTP PUT方法测试 1 5 HTTP DELETE方
前端例程20211213：网页去色（以灰度形式显示）

文章目录前言实现与演示前言在每年的一些特殊的日子比如公祭日等很多网站会将页面整体去色以灰度形式显示以示哀悼这里将对网页中实现该功能进行简单说明实现与演示使用CSS的 filter grayscale 属性可以给元素添加灰
主进程退出后子进程还会存在吗?_深度好文

干了这碗鸡汤我急切地盼望着可以经历一场放纵的快乐纵使巨大的悲哀将接踵而至我也在所不惜太宰治人间失格大家好这里是周日凌晨4点仍在笔耕不辍的程序喵大人下面隆重推出我呕心沥血耗时半个月完成的精心力作 01 什么是进程标准定义
Element Plus 配置自动按需引入后，手动引入组件，组件样式丢失

起因最近在尝试使用 Element Plus 写一些简单的页面跟着官方文档走配置了自动按需引入 npm install D unplugin vue components unplugin auto import vite config
IDEA全局搜索框打不开，全局搜索不全，全局搜索不到解决办法

IDEA默认全局搜索快捷键是Ctrl Shift F 当我在使用IDEA的全局搜索时发现IDEA的全局搜索快捷键不起作用无法弹出全局搜索框此时想到了应该是快捷键被占用了首先想到的就是搜狗输入法打开搜狗输入法设置高级把这个简繁切
Python 基于BP神经网络的鸢尾花分类

本文用Python实现了BP神经网络分类算法根据鸢尾花的4个特征实现3种鸢尾花的分类算法参考文章纯Python实现鸢尾属植物数据集神经网络模型 2020 07 21更新增加了分类结果可视化result visualization
Elasticsearch 索引模板：优化大数据搜索与分析

Elasticsearch 是一个强大的分布式搜索和分析引擎广泛应用于处理大数据量的搜索和分析任务为了提高搜索效率和数据组织结构的一致性 Elasticsearch 提供了索引模板 template 的功能索引模板允许我们在创建索引时
《python语言程序设计》第5章第23题贷款计算

LOAN AMOUNT 10000 number years 5 NUMBER OF YEAR number years 12 interest rate 5 month rate interest rate 1200 print f Lo
springboot跳转页面

SpringBoot里面只有src目录在src main resources下面有两个文件夹 static 和 templates springboot默认static中放静态页面而templates中放动态页面 themleaf和fr
Egret游戏通用开发框架

地址 https github com yicaoyimuys EgretGameEngine 简介现在这套代码已经有几个项目都在使用了主要用于各项目组间统一开发规范便于开发人员调整以及新手快速熟悉项目支持Egret2 0 x和2
C#写的34401A串口232数据读取程序

首先呢请先设置惠普表为Talk only模式也就是31 还不明白的自己查手册去另外各个表设置不一样比如我这里2块表就不一样一块是7位数据位 even校验另一块是8位数据位 none校验具体的可以看看表里的i o那里的设置数
GPIO的两种引脚规则：BCM与BOARD

树莓派 raspberry 针脚在python中BCM与BOARD模式的区别在python程序中定义的GPI针脚有两种模式 BCM模式 BOARD模式 BCM模式例如 GPIO setmode GPIO BCM 测试结果如下物理针脚1
pycharm注释快捷键Ctrl+/

行注释取消行注释 Ctrl 块注释 Ctrl Shift
ArcGIS部分问题解决办法

ArcGIS部分常见问题解决办法最近在学习ArcGIS过程中进行某些操作选项总是会会发生错误不仅仅我自己一个人是这样周围好多同学也是经常在操作的过程中报错所以就很突发奇想把这段时间遇到的问题统一写下来也是为了自己以后忘掉可以直接
系统调用：用户级函数如何通过INT 80中断进入操作系统内核

以printf 打印内核中的一段字符串为例 printf 是用户函数无法进入内核因此需要进行系统调用进入内核的方式是使用int 0x80中断 printf 函数想要进入系统内核是通过系统调用write 实现位置 linux lib w
Usbkey原理介绍

不好意思百度来的大家一起学习吧文库中竟然收费5个币 Usbkey原理介绍一 usbkey实现身份认证原理采用冲击响应的认证方法登录时在服务器端和客户端同时进行计算客户端计算前要先验证USER PIN 通过后在硬件中使用HMAC
OD华为机试 23

篮球比赛描述篮球 5V5 比赛中每个球员拥有一个战斗力每个队伍的所有球员战斗力之和为该队伍的总体战斗力现有10个球员准备分为两队进行训练赛教练希望2个队伍的战斗力差值能够尽可能的小以达到最佳训练效果给出10个球员的战斗力如
docker搭建hadoop hdfs完全分布式集群

1 制作hadoop镜像参见 https www cnblogs com rmxd p 12051866 html 该博客中只参考制作镜像部分固定IP及启动集群的部分应该跳过这里注意在做好的镜像里要安装 which 工具否则在执

docker搭建hadoop hdfs完全分布式集群

docker搭建hadoop hdfs完全分布式集群 的相关文章

随机推荐

热门标签

docker搭建hadoop hdfs完全分布式集群的相关文章