Hadoop生态圈

2023-05-16

Hadoop生态圈

1.什么是Hadoop?

  • Hadoop是由Apache基金会所开发的分布式系统架构。
  • 主要解决,海量数据的存储和海量数据的分析计算问题
  • 广义上来说,Hadoop通常是指一个更加广泛的概念——Hadoop生态圈

2.Hadoop有那些优势?

  • 高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或储存出现故障,也不会导致数据的丢失。
  • 高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点
  • 高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
  • 高容错性:能够自动将失败的任务重新分配。

3. Hadoop的组成是什么?(面试重点)

  • 在Hadoop1.x时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度,耦合性较大。
  • 在Hadoop2.x时代,增加了Yarn。Yarn只负责资源的调度,MapReduce只负责运算。
  • Hadoop3.x在组成上没有什么变化。
    在这里插入图片描述

4.HDFS架构概述

​ Hadoop Distributed File System,简称HDFS,是一个分布式文件系统

  • NameNode(nn):储存文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限,以及每个文件的块列表和块所在的DataNode等。
  • DataNode(dn):在本地文件系统储存文件块数据,以及块数据的校验和。
  • Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份

5.YARN架构概述

​ YetAnother Resource Negotiator 简称YARN,另一种资源协调者,是Hadoop的资源管理器。

  • ResourceManager(RM):整个集群资源的老大(内存、CPU等)
  • NodeManager(NM):单个节点服务器资源的老大
  • ApplicationMaster(AM):单个任务运行的老大
  • Container:容器,相当于一台独立的服务器,里面封装来任务运行所需的资源,如内存,CPU,磁盘,网络等。

说明:

  • 客户端可以有多个

  • 集群上可以运行多个ApplicationMaster

  • 每个NodeManager上可以有多个Container

6.MapReduce架构概述

​ MapReduce将计算过程分为两个阶段:Map和Reduce

  • Map阶段并行处理输入数据
  • Reduce阶段对Map结果进行汇总

7.HDFS、YARN、MapReduce三者关系图

在这里插入图片描述

8.常见面试题

  • 常见端口号

    • Hadoop3.x
      • HDFS NameNode 内部通常端口:8020/9000/9820
      • HDFS NameNode 对用户的查询端口:9870
      • Yarn查看任务运行情况的:8088
      • 历史服务器:19888
    • Hadoop2.x
      • HDFS NameNode 内部通常端口:8020/9000
      • HDFS NameNode 对用户的查询端口:50070
      • Yarn查看任务运行情况的:8088
      • 历史服务器:19888
  • 常用的配置文件

    3.x core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml workers

    2.x core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml slaves

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop生态圈 的相关文章

  • 简单的数据可视化---绘制散点图

    使用scatter绘制散点图并设置其样式 绘制单个点 要绘制单个点 xff0c 可以使用函数scatter xff0c 并向它传递一对x和y坐标 xff0c 它将在指定位置绘制一个点 xff1a span class token keywo
  • python随机漫步

    随机漫步 这次我们将使用python生成随机漫步数据 xff0c 然后用matplotlib的方式将这些数据呈现出来 随机漫步每次行走都完全是随机的 xff0c 没有明确的方向 xff0c 结果是由一系列随机决策决定的 你可以这样认为 xf
  • python基础

    python基础 文章目录 python基础基础语法关键字标识符多行语句数据类型 字符串输出import 与from import基本数据类型多个变量赋值标准数据类型Number xff08 数字 xff09 数值运算数学函数随机数函数三角
  • Debian简介与Debian源

    1 Deiban是一套自由操作系统 使用Linux内核 xff0c 大部分基本工具来自GNU计划 因此称Deiban为Debian GNU Linux Debian是第一个使用包管理系统的Linux发行版 xff0c 是的安装和删除软件变得
  • cloudmusic:网易云爬虫

    文章目录 cloudmuscic xff1a 网易云音乐爬虫安装使用music对象1 music对象属性2 music对象方法3 music对象函数 user对象1 user对象属性2 user对象方法3 获取user对象函数 cloudm
  • 链家深圳二手房房价数据分析

    文章目录 链家深圳二手房房价数据分析1 链家数据爬取源码2 雷达图的绘制2 1 源码2 2 雷达图效果图 3 饼状图的绘制3 1 源代码3 2 饼状图效果图 4 多维散点图4 1 源码4 2 多维散点图效果图 5 玫瑰图5 1 源码5 2
  • UNIX基础知识

    文章目录 UNIX基础知识1 1 引言1 2 UNIX体系结构1 3 登录1 4 文件和目录1 5 输入和输出1 6 程序和进程1 程序2 进程和进程ID3 进程控制4 线程和线程ID 1 7 出错处理出错恢复 1 8 用户标识1 用户ID
  • 栈和队列——小猫钓鱼

    星期天A和B在一起玩扑克牌 xff0c 他们在玩一个古怪的扑克牌游戏 小猫钓鱼 游戏的规则是这样的 xff0c 将一副扑克牌平均分成两份 xff0c 每人拿一份 A先拿出手中的第一章牌放在桌上 xff0c 然后B也从手里拿出一张牌放在桌上
  • 二叉树与二叉树遍历

    树的介绍 你可能回文树和图有什么区别 xff1f 这个称之为树的东西和无向图差不多嘛 树其实就是不包含回路的连通无向图 图画的不好啊 xff0c 把箭头忽略一下将就看一下 xff0c 上面这个图左边就是一棵树 xff0c 而右边就是一个图
  • 广度优先搜索

    在前面的迷宫中 xff0c 我们使用了深度优先搜索的方法 xff0c 这里介绍一个新的方法来解决这个问题 广度优先搜索 xff0c 也称为宽度优先搜索 这里还是用一个二维数组来存储迷宫 xff0c 最开始的时候A也是在迷宫 0 0 处 xf
  • 图的遍历--深度优先搜索

    深度优先搜索和广度优先搜索 xff0c 其实都是针对图的变量而言的 简单来说 xff0c 图就是一些圆点和连接这些圆点的直线组成 例如上图的这五个定点和四条边 我们现在从1号顶点开始遍历整个图 xff0c 遍历指的就是把图的每一个顶点都访问
  • 暴力的枚举

    枚举算法又叫穷举算法 xff0c 光听名字就是能知道这个很暴力 有一个题 xff1a 3 6528 61 3 8256 xff0c 在两个方框里面填入相同的数字使得等式成立 你可能会觉得这个很简单 xff0c 3行代码就可以搞定 xff1a
  • 虚拟机的使用及基本命令

    虚拟机的使用 kiosk 64 foundation0 Desktop rht vmctl view desktop 显示虚拟机 kiosk 64 foundation0 Desktop rht vmctl start desktop 打开
  • 【虚拟机网络问题】关于怎么解决Ubuntu上Linux网络突然失灵这个问题的若干方案汇总

    虚拟机网络问题 关于怎么解决Ubuntu上Linux网络突然失灵这个问题的若干方案汇总 PS xff1a 本文仅是针对个人使用基于Ubuntu18 04上的Linux系统问题相关记录 xff0c 便于遇到此类问题快速解决 前言 本篇文章在参
  • sublime text 3+mingw搭建C++编译环境

    sublime text 3 43 mingw搭建C 43 43 编译环境 附上Sublime Text下载地址和MinGW下载链接 目录 sublime text 3mingw搭建C编译环境 目录安装MinGW系统配置环境 配置参数简单测
  • React 属性验证 propTypes

    React 组件可以根据预先设置进行属性验证 React prop验证使用 propTypes xff0c 它可以保证我们的应用组件被正确使用 xff0c React PropTypes 提供很多验证器 validator 来验证传入数据是
  • 【2023年最新版】Kali安装详细教程

    一 前期准备 kali镜像下载地址 前排提醒 xff1a 文末有绿色安装包领取 xff01 二 VMware虚拟机配置 1 打开vmware xff0c 点击创建新的虚拟机 2 选择自定义 高级 选项 xff0c 点击下一步 3 继续下一步
  • 七段码 蓝桥杯 python

    这题我是跟着别人的写出来的 xff0c 也就是暴力出来的 xff0c 真不清楚别人怎么将dfs bfs应用进去的 记得7根一根根亮的7中情况 xff0c 和7根都亮的1种情况 整题非常暴力 xff0c 即将2到6的所有组合写出来 xff0c
  • 矩池云上使用nohup和&让任务后台运行

    1 nohup 用途 xff1a 不挂断地运行命令 语法 xff1a nohup Command Arg amp 无论是否将 nohup 命令的输出重定向到终端 xff0c 输出都将附加到当前目录的 nohup out 文件中 如果当前目录
  • Ubuntu系统安装完nvidia显卡驱动后黑屏,不能进入系统

    昨天想看显卡 xff0c 更新了下驱动 xff0c 发现服务器重启进不去 步骤 1 开机按esc 进入 选项界面 2 进去以后选择一个括号里面带recovery mode的选项 3 然后它自动黑屏出现代码 xff0c 然后弹出一个选择框 x

随机推荐