使用docker搭建一个完全分布式的hadoop集群

2023-11-05

项目地址：https://github.com/czfshine/docker-hadoop

docker-hadoop

A dockerfile for setting up a full Hadoop cluster server

一套在ubuntu 下生成和部署Hadoop的Docker镜像的配置文件集与示例。

包括:

环境配置文件
生成 docker image 的dockerfile
启动和配置docker的docker-compose的配置文件
IDEA 的相关配置文件
一些文章博客教程
几个简单到复杂的示例项目

文章目录

docker-hadoop
-1. 基础概念
0.安装依赖
1.生成镜像
2.测试镜像和启动
- 启动
- 执行命令和代码
3. docker-compose 配置和启动
4.IDEA的配置
5. 示例项目

-1. 基础概念

Hadoop 一个大数据的分布式计算框架
Docker 一个轻量级的容器服务

Hadoop 是一个分布式的计算机框架,显然要有多台机器(当然可以搭伪分布式的).这时候就需要有多台机器.可以用虚拟机模拟,但是虚拟机太重,性能损耗大.

Docker 是一个轻量级的容器服务,相当于一个虚拟机,不过损耗的资源较小

Docker 镜像包括运行一个程序所需的所有文件
Volumes 卷一个Docker的图层,作用于某个正在运行的容器的镜像上面

Docker镜像一旦生成即不可变的,但是我们的程序要生成或获取一些动态的文件.Volume就是来解决这个问题的,它将Host的一个路径与容器的一个路径关联起来,容器读写该路径下的文件会被代理到Host关联的路径下.

端口映射将容器的端口和主机的端口关联起来

我们的Hadoop 的datanode和namenode什么的都会监听同样的端口,我们将这些端口映射到主机的不同端口上,可以从主机访问各个容器的状态.

docker-compose 用来启动和配置多个镜像

我们启动一个hadoop的docker集群,必然有多个容器要先后启动,他们的端口和文件映射都需要独立的进行配置,docker-compose是一个用来的帮助我们完成这些功能的小工具

0.安装依赖

在宿主机上需要用到的程序大概有(不完全):

docker-ce 社区版就行
maven java 的库和项目管理程序
idea java的IDE

1.生成镜像

这一步可以跳过,直接在docker hub下载我上传的镜像
然后在某一步出错或卡住,去看持续集成是怎么做的(travis-ci的脚本)

1.0 前言

其实很多人(包括我)都搭建过hadoop的镜像,然后上传到Docker Hub的,区别(可能)只是里面的配置文件不一样,所以不想自己搭建的可以用搭好的,然后再改改.不过不保证可用性,下面是一些~~看起来~~比较有用的镜像:

https://hub.docker.com/r/sequenceiq/hadoop-docker

1.1 参考资料

https://github.com/docker/labs/tree/master/developer-tools/java/ 官方的docker java 示例
- https://github.com/docker/labs/tree/master/developer-tools/java-debugging 同上
https://hub.docker.com/_/openjdk openjdk的docker

1.2 镜像继承结构

ubuntu:xenial 基础的ubuntu系统镜像
- hadoop-base 包括jdk,hadoop等需要用到的安装包
  - hadoop-master 主机
  - hadopp-slave 计算节点

1.3 基础镜像搭建

我们要将运行hadoop所需的文件,程序安装到该镜像

这里分成多个不同层次的镜像构建,还没研究docker构建的缓存细节,所以这样当做手动使用缓存,不需要每次都从零开始构建

先搭个jdk8的环境

todo :这里为了省事直接apt get的,比较大,下一次改成解压二进制包试试大小

cd ./docker/jdk8
docker build -t czfshine/openjdk8 .

测试一下:

docker run -t -i czfshine/openjdk8:latest
java -version

然后是ssh

cd ./docker/ssh
docker build -t czfshine/ssh .

同样的测试一下

docker run -t -i czfshine/ssh
ssh localhost

下面正式构建hadoop镜像了

首先cd到docker/hadoop-base文件夹下
执行./download.sh 它将从清华大学镜像站下载2.7.7版本的Hadoop

这一步当然可以写在Dockerfile里面,可是考虑到每一次构建镜像都要下载一次太慢了,就算了:)
执行clean.sh 删掉hadoop里面的文档,这些我们不需要打包到镜像的

 docker build -t czfshine/hadoop-base:2.7.7 .

2.测试镜像和启动

启动

tools下有两个脚本

start-all-containers.sh 启动一个hadoop集群,并attach到master
stop-all-containers.sh 关掉并清理上一个脚本启动的容器

启动集群后,连接master,在用户目录下有个start-hadoop.sh脚本,执行后会在各个节点启动对应的hadoop服务.

执行命令和代码

启动集群和服务后,在master下可以直接执行下列类似的命令:

hadopp dfs -ls /
hadoop jar xxxx.jar xxx yyy zzz

同时,挂载了宿主机的~/hadoop 到容器的/data.需要执行的jar包和数据可以直接放到该目录下.

3. docker-compose 配置和启动

todo

4.IDEA的配置

todo :基本上开箱即用,不过可以装几个QOL的插件

5. 示例项目

在example文件夹下,具体看里面的README.MD

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

Hadoop

Docker

云计算

大数据

使用docker搭建一个完全分布式的hadoop集群的相关文章

Java中如何对对象数组进行排序？

我的数组不包含任何字符串但它包含对象引用每个对象引用都通过 toString 方法返回名称 id 作者和发布者 public String toString return name n id n author n publisher n
java中%%是什么意思？

我是一名 PHP 程序员想知道这行代码的含义 System out printf exp 3f is 3f n x Math exp x 3f 3f n 和逗号 x 是什么意思它与C类似printf http java sun com
如何访问EmbeddedSolrServer实例的管理界面？

在我的网络应用程序中我正在运行org apache solr client solrj embedded EmbeddedSolrServer出于调试目的我想访问管理界面这就是我实例化服务器的方式 new EmbeddedSolrSe
使用 POJO 仅更新 JOOQ 记录中已更改的字段

我想使用 POJO 作为源来更新 JOOQ 记录中已更改的字段 Record from Object http www jooq org javadoc 3 8 x org jooq Record html from java lang O
docker：来自守护进程的错误响应：安装被拒绝：批准/path/to/file不存在

我的泊坞窗命令 docker run it rm v pwd mutcompute ens net v3 给我以下错误 docker Error response from daemon Mounts denied approving Us
自动输入以在 Dockerfile 中对脚本进行多项选择

我有一个像blow这样的shell脚本我想在a中执行它Dockerfle并使用自动选择echo e 1 Which application you d select 1 nginx 2 squid 3 hproxy Please ente
Java：从 ScriptEngine javascript 返回一个对象

我正在尝试使用 Java 来评估 javascript脚本引擎 https docs oracle com javase 7 docs api javax script ScriptEngine html班级这是我正在尝试做的事情的一个简
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
加密 mongodb 中的密码字段

我有以下代码它插入userName and password进入数据库但密码以纯文本格式存储我的意思是当我查看数据库时我可以看到插入的密码我想存储password in encrypted format MongoClient
无法删除临时文件夹（有时）

当我启动应用程序时我创建一个临时文件夹 public static File createTempDir String name throws IOException File tempDir File createTempFile na
Java：如果数组大小未知，如何初始化？

我要求用户输入 1 到 100 之间的一些数字并将它们分配到一个数组中数组大小未初始化因为它取决于用户输入数字的次数我应该如何分配数组长度如果用户输入 5 6 7 8 9 5 个数字则 int list becomes int l
SwingUtilities.invokeLater

我的问题与SwingUtilities invokeLater 我应该什么时候使用它每次需要更新 GUI 组件时都必须使用吗它到底有什么作用是否有替代方案因为它听起来不直观并且添加了看似不必要的代码 Do I have to use
@Transactional 注解属于哪里？

如果您将 Transactional in the DAO类和或其方法或者注释使用 DAO 对象调用的服务类是否更好或者注释两个层是否有意义我认为事务属于服务层它是了解工作单元和用例的人如果您将多个 DAO 注入到需要在单个
java charAt() 和startsWith() 哪个更快？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我的问题是如果我想检查特定索引中字符串的一个字符仅检查一个字符哪种方法非常有效charAt or startsWith 我的意思是据我所
Unix 纪元时间转 Java Date 对象

我有一个包含以下内容的字符串UNIX 纪元时间 https en wikipedia org wiki Unix time 我需要将其转换为 Java Date 对象 String date 1081157732 DateFormat df
莫基托。验证方法参数是特定类

我有一个方法 void putObject
运行 Espresso 测试时在 Android studio 中找不到属性 android:forceQueryable

我已经使用 android studio 录制了我的 Android 应用程序 Espresso 测试记录浓缩咖啡测试选项中Run菜单在记录的最后我用自己的文件名保存了测试单击保存按钮后 IDE 会自动在以下位置创建文件Android
java - 简单计算在多线程中比在单线程中花费更长的时间

我试图了解如何利用多线程我写了一个简单的程序来增加i 比方说使用两种方式 400 000 次单线程方式 0 到 400 000 和多线程方式在我的例子中 4 次 0 到 100 000 线程数等于Runtime getRuntime
“mvn”不被识别为内部或外部命令、可操作程序或批处理文件

可能是之前问过问题但我发现了非常奇怪的错误当我跑步时mvn versionbin 中的命令给出了版本和其他信息但是当我跑到垃圾箱外面时它会出现异常下面提到的结果 C Program Files apache maven 3 0
如何在 tomcat 上部署 Java Web 应用程序 (.war)？

我有一个 warJava Web 应用程序的文件现在我想将它上传到我的 ftp 服务器以便我可以执行它我应该执行哪些步骤来运行它 webapp的上下文路径是 mywebapp Edit 实际上我的 ftp 服务器名称是ftp bil

随机推荐

python3刷leetcode第165题165.compare version number

class Solution def compareVersion self version1 str version2 str gt int version1 version1 split version2 version2 split
入门ResNet，在Cub200数据集上复现Resnet50

1 背景问题 1 如果只是单纯地把卷积层和池化层进行堆叠造成的问题就会有梯度消失和梯度爆炸梯度消失是指当在某一层进行BP的时候误差为一个小于零的数那不断相乘就会趋近于零梯度爆炸则是指某一层的开始误差都是大于1的数直接相乘就会导
centos7 sh 注释_shell 中的单行注释和多行注释

导读关于 shell 中的单行注释和多行注释的问题本文档介绍两种实用的方法 1 单行注释众所周知比如想要注释 echo Hello World root Jaking vim test sh echo Hello World 2 多
如何进行需求测试/需求评审

由于软件系统的复杂性在需求分析阶段可能存在着开发方对委托方业务需求理解不全面不准确的情况在这种情况下如果不进行相关的质量控制往往会造成开发结果与用户需求不一致的后果需求测试的目的就在于保证软件设计最大可能地满足有关用户的所有需求
从前端传来的JSON中获取数据

首先推荐一个神器 JSON在线解析及格式化验证 JSON cn 里面的 JSON在线解析和 JSON生成JAVA实体两个功能前几天可是帮了我大忙了前几天写一个功能在这个功能中前端传过来的JSON十分复杂示例如 Dispositi
virtualbox 安装centos7之后无法ssh登陆

文章目录 virtualbox 安装 centos7 开启centos7网络 sshd 服务是否开启设置 virtualbox 端口转发功能设置secureCrt 连接参数 virtualbox 安装 centos7 virtualbo
贝叶斯网络与R语言

贝叶斯网络与R语言基本语句 1 1网络的创建加载扩展包和bnlearn包自带数据集marks 数据集marks 88 学生5门课的成绩 MECH mechanics VECT vectors ALG algebra ANL analys
十一. Kubernetes 容器 container 设置详解

目录一基础解释 yaml设置容器拉取镜像注意点 1 containers image 镜像 2 containers imagePullPolicy 镜像拉取策略 3 配置拉取私库镜像 spec下的imagePullSecrets 4
【六级单词】

affordable 价格合理的 cash 现金 insurance 保险 forune 一大笔钱机会运气 misfortune 不幸灾难 luxury 奢侈豪华 luxurious shop pension 养老金抚恤金 com
C语言每日一题：16：数对。

思路一基本思路 1 x y均不大于n 就是小于等于n 2 x y大于等于k 3 一般的思路使用双for循环去遍历每一对数代码实现 include
pytorch霹雳巴拉——图像分类篇

up给的教程路线图像分类目标检测一步步学习用pytorch实现深度学习在cv上的应用并做笔记整理和总结参考内容来自 up主的b站链接 https space bilibili com 18161609 channel index
layui 动态加载 select

感谢小张帅三代以及他的好文 layui ajax select 动态添加数据方法给我指明了前进的方向首先这是一个学习的过程并不是最优方案只是玩索而有得而己做了一个联动的搜索框本来一开始想用layuiselect第三方插件
图的遍历方法——DFS和BFS

DFS类似于树的先序遍历因此可以用递归实现 BFS类似于树的层次遍历因此可以用队列实现说明下面代码中图的存储方式是邻接表关于邻接表和邻接矩阵可看邻接表和邻接矩阵 1 深度优先遍历 Depth First Search 思想从图中
微信小程序实现单/多图片上传（预览删除）

wxml结构上传图片
Linux中Vim文件夹路径,一些有用的Linux命令和Vim使用总结

常见Linux命令文件复制移动删除创建复制 cp v 源文件路径目标文件路径移动 mv v 源文件路径目标文件路径删除 rm v 文件路径 rmdir v 文件夹路径文件夹要为空 rm rv 文件夹路径递归删除文件夹及
Qt界面开发(一)（各种控件以及图表）

注资源主要来源 http www qtcn org bbs u 110085 刘大神如若侵权请联系删除本文只是将作品集合到起来方便大家一起学习资源集合已经放到链接 https pan baidu com s 1sVvQE8uD
ts 因为在此系统上禁止运行脚本（win10系统）

今天弄了一下Ts 有点晚了但是确实是才开始尝试以前只是看了看 1 先安装 npm install g typescript 2 安装成功 typescript 4 0 3 added 1 package from 1 contribut
Goby的使用漏洞扫描工具

获取自己虚拟机的ip 打开Goby 点击扫描输入虚拟机的IP地址开始扫描扫描结束这里没有扫到漏洞点击报告查看报告右上角下载生成报告漏洞举例
C++学习笔记之浅拷贝&深拷贝的理解

一浅拷贝浅拷贝就是把类中的成员属性简单的复制如果有指针成员变量也只是拷贝指针的地址下面案例就是先创建teacher1对象再把它初始化给teacher2对象在初始化时需要调用复制构造函数因为Teacher类没有重写复制构造函数
使用docker搭建一个完全分布式的hadoop集群

项目地址 https github com czfshine docker hadoop docker hadoop A dockerfile for setting up a full Hadoop cluster server 一套在u