HDFS的基础详解

2023-11-16

概念: HDFS是Hadoop Distribute File System 的简称(Hadoop 分布式文件系统), 是hadoop核心组件之一, 作为最底层的分布式存储服务而存在.分布式文件系统解决的问题就是大数据存储问题.

设计目标

1. 硬件故障是常态: 故障检测和自动快速回复是HDFS的核心架构目标
2. HDFS主要是以流式读取数据, 更注重数据访问的高吞吐量.被设计成批量的处理
3. HDFS支持大文件
4. HDFS对文件的要求是一次写入多次读取

HDFS重要特性
1. 首先是一个文件系统, 其次是分布式
2. HDFS采用的是主从架构(master/slave), HDFS集群是有一个 Namenode 和一定数目的 Datanode 组成。Namenode 是 HDFS 集群主节点，Datanode 是 HDFS 集群从节点，两种角色各司其职，共同协调完成分布式的文件存储服务。
3. HDFS中的文件是在物理上分块存储的, 默认块的大小是128M
4. 名字空间(NameSpace), Namenode负责维护文件系统的名字空间.
5. 目录结构及文件分块位置信息叫做元数据, Namenode负责维护整合HDFS系统的目录树结构以及每一个文件所对应的 block 块信息（block 的id，及所在的 datanode 服务器）。
6. DataNode文件各个block的具体存储管理有DataNode节点承担, 每一个block都可以咋子多个datanode上Datanode 需要定时向 Namenode 汇报自己持有的 block信息。(默认副本数是3)
7. 为了容错, 文件的所有block都有副本.

HDFS的基本操作

shell命令

hadoop fs或者(HDFS dfs)
	-ls 查看指定路径的当前目录结构
	-du 统计目录下个文件大小
	-count 统计目录下文件数量
	-mv 移动
	-rm 删除
	-put 上传文件
	-text 查看文件内容
	-mkdir 创建文件夹
	-touchz 创建空白文件
	-tail 查看文件尾部信息
	-chmod 修改权限
	-appendToFile 追加一个文件到已存在的文件末尾
	-copyFromLocal 熊本地文件系统拷贝到HDFS路径
	-copyTolocal 从HDFS拷贝到本地
	-getmerge 合并下载多个文件

HDFS的结构

NameNode : 分布式文件系统中的管理者，主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等 .NameNode会将系统的MetaData存储在内存中

SecondaryNameNode: 合并fdimage和fsedits log, 然后在发送给NameNode

DataNode: 文件存储的基本单元, 将Block存储在本地文件系统中

Client: 就是需要获取分布式文件系统的文件的应用程序

限额操作

-setQuota 设置最多上传文件
-clrQuota 清除文件数量限额
hdfs dfsadmin -setQuota 2 文件名
空间大小限额
-setSpaceQuota 限制空间大小
-clrSpaceQuota 清除空间限额

HDFS基本原理
1. Namenode是HDFS的核心, 也称为master, 仅仅存储HDFS的元数据, 不存储实际数据, 数据本身存储在DataNode中.并不支持持久化存储文件中各个快所在的DataNode的位置信息 ,NameNode 是 Hadoop 集群中的单点故障。
2. DataNode负责将实际的数据存储在HDFS中, 也称为Slave.DataNode 会定期（默认是 3 秒）向NameNode 发送心跳，如果 NameNode 长时间没有收到 DataNode 发送的心跳，NameNode 就会认为该DataNode 失效. block 汇报时间间隔默认6小时.

HDFS工作机制

Namenode负责管理整个文件系统元数据, DataNode负责管理具体文件数据块存储.
Secondary Namenode协助NameNode进行元数据的备份.

HDFS的读数据流程:

客户端向NameNode请求上传文件, NameNode检查目标文件是否存在.
1. NameNode返回可以上传
2. 客户端请求第一个block上传到那几个DataNode.
3. NameNode返回3个可用的DataNode节点的位置信息
4. 客户端请求dn1上传数据, dn1收到请求会继续调用dn2, 然后dn2调用dn3, 将这个管道建立完成
5. dn1, dn2,dn3 逐级返回响应管道建立完成,
6. 客户端开始上传第一个block(先从磁盘读取数据放倒一个本地内存缓存), 以packet为单位, 依次传递给dn中
7. 当第一个block传输完成, 客户端再次请求上传第二个block重复执行3-7步.
  
  注意: 当第一个block上传完毕, 即显示上传成功.

HDFS的写数据流程:

1. 客户端向NameNode请求下载文件, NameNode通过查询元数据, 找到所在的DataNode地址,
2. 挑选一台DataNode(就近原则, 然后随机), 请求读取数据
3. DataNode开始传输是数据给客户端(从磁盘里读取数据放入流, 以packet为单位校验)
4. 客户端以packet为单位接收, 现在本地缓存, 然后写入目标文件.
HDFS的其他功能
1. 集群内部文件拷贝 scp
  
  scp -r 文件
2. 跨集群之间的数据拷贝distcp
3. Archive 档案
  
  HDFS不擅长存储小文件, 每个文件的最少一个block.每个block的元数据都会存在Namenode占用内存. Hadoop Achives 可以有效处理这个问题, 他可以把多个文件归档成一个文件. (Achives文件的扩展名 *.har)
  
  例如: hadoop archive -archiveName test.har -p /input /outputdir
  
  创建Archives本质是运行一个MR任务.不支持压缩. 一旦创建无法修改.
HDFS高阶
1. 元数据的管理
  
  fsimage镜像文件: 是元数据的一个持久化的检查点, 包含Hadoop的文件中所有的目录和文件元数据信息.
  edits编辑日志: 存放的是Hadoop文件系统的所有更改操作日志.
  fsimage和edits log的合并
  
  将文件系统个元数据操作分开操作，是为了提升内存的处理效率。如果不分开处理，即所有的写操作均记录在一个文件中，比如，fsimage中，那么每个操作都会对这个文件进行修改，因为这个文件可能会很大，所以每次进行写操作的时候就会很慢，随着fsimage越来越大，速度便会越来越低。
  
  引入来checkpoint机制, 定时的把edits和fsimage进行合并成新的fsimage.ckpt, 然后在post给NameNode为新的fsimage.
  checkpoint的默认时间间隔就是1小时.
  NameNode宕机, 可能会有一段时间的fsimage缺失.
  下图就是checkpoint的过程: (secondary namenode将namenode上积累的所有edits和一个最新的fsimage下载到本地，并加载到内存进行merge)
  
  遇到的问题: 单点故障和脑裂问题
  1. 单点故障 (NameNode出现故障) -> 设置HA模式, 会有两个NameNode(active, standby)
    
    active NameNode出现问题, StandBy NameNode监听到之后, 会自动变成Active NameNode.
  2. 脑裂 -> 脑裂通常发生在主从namenode切换时，由于ActiveNameNode的网络延迟、设备故障等问题，另一个NameNode会认为活跃的NameNode成为失效状态，此时StandbyNameNode会转换成活跃状态，此时集群中将会出现两个活跃的namenode .
    
    解决: 使用隔离机制，通过调用活跃节点中的隔离方法，让其主动转换为standby状态，
2. HDFS的限额操作
```
HDFS文件限额操作
   以文件大小或者文件个数来限制在某个目录下上传的文件数量或者文件内容总量
```

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

大数据

HDFS

HDFS的基础详解的相关文章

Hadoop安装问题：

我跟着this http www bogotobogo com Hadoop BigData hadoop Install on ubuntu single node cluster phpHadoop 安装教程不幸的是当我运行全部启动
Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

我在跑蜂巢2 1 1 Ubuntu 16 04 上的 hadoop 2 7 3 根据Hive on Spark 入门 https cwiki apache org confluence display Hive Hive on Spark
获取 emr-ddb-hadoop.jar 将 DynamoDB 与 EMR Spark 连接

我有一个 DynamoDB 表需要将其连接到 EMR Spark SQL 才能对该表运行查询我获得了带有发行标签 emr 4 6 0 和 Spark 1 6 1 的 EMR Spark Cluster 我指的是文档使用 Spark 分
将日期字符串转换为“MM/DD/YY”格式

我刚刚看到这个例子我该如何解决这个问题 Hive 元存储包含一个名为 Problem1 的数据库其中包含一个名为 customer 的表 customer 表包含 9000 万条客户记录 90 000 000 每条记录都有一个生日字段
hive创建表的多个转义字符

我正在尝试将带有管道分隔符的 csv 加载到配置单元外部表数据值包含单引号双引号括号等使用 Open CSV 版本 2 3 测试文件 csv id name phone 1 Rahul 123 2 Kumar s 456 3 Nee
遍历 ArrayWritable - NoSuchMethodException

我刚刚开始使用 MapReduce 并且遇到了一个奇怪的错误我无法通过 Google 回答该错误我正在使用 ArrayWritable 制作一个基本程序但是当我运行它时在Reduce过程中出现以下错误 java lang Runti
伪分布式模式下的 Hadoop。连接被拒绝

P S 请不要将此标记为重复 Hi 我一直在尝试以伪分布式模式设置和运行 Hadoop 当我运行 start all sh 脚本时我得到以下输出 starting namenode logging to home raveesh Hado
适用于 Hadoop 的 DynamoDB 输入格式

我必须使用 Hadoop mapreduce 处理保留在 Amazon Dynamodb 中的一些数据我在互联网上搜索 Dynamo DB 的 Hadoop InputFormat 但找不到它我对 Dynamo DB 不熟悉所以我猜测
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current
Hadoop 推测任务执行

在Google的MapReduce论文中他们有一个备份任务我认为这与Hadoop中的推测任务是一样的推测任务是如何实现的当我启动一项推测任务时该任务是从一开始就作为较旧且缓慢的任务开始还是从较旧的任务到达的位置开始如果是这样
Spark 写入 hdfs 无法使用 saveAsNewAPIHadoopFile 方法

我在 CDH 5 2 0 上使用 Spark 1 1 0 并试图确保我可以读取和写入 hdfs 我很快意识到 textFile 和 saveAsTextFile 调用旧的 api 并且似乎与我们的 hdfs 版本不兼容 def testHD
Talend 和 Apache Spark？

我对 Talend 和 Apache Spark 在大数据生态系统中的定位感到困惑因为 Apache Spark 和 Talend 都可以用于 ETL 有人可以用一个例子解释一下吗 Talend 是一种基于工具的大数据方法通过内置组件支
Apache hadoop 版本 2.0 与 0.23

Hadoop 的版本和发行版太多让我很困惑我有几个问题 Apache Hadoop 1 x 是从 0 20 205 开始的 Apache Hadoop 2 0 是从 0 22 还是 0 23 开始根据这个blogpost http b
hive 添加分区语句忽略前导零

我在 hdfs 上有文件夹 user test year 2016 month 04 dt 25 000000 0 需要将上面的分区路径添加到test table 命令 ALTER TABLE test ADD IF NOT EXISTS
如何按行扩展数组值！！使用 Hive SQL

我有一个有 4 列的表其中一列项目类型是 ARRAY 其他是字符串 ID items name loc id1 item1 item2 item3 item4 item5 Mike CT id2 item3 item7 item4 i
在 PIG 中加载文件时如何忽略“（双引号）？

我的文件中有以下数据 a b 1 2 a b 4 3 a b 3 1 我正在使用以下命令读取此文件 File1 LOAD path using PigStorage as f1 chararray f2 chararray f3 int f
Hadoop Windows 设置。运行 WordCountJob 时出错：“任何本地目录中都没有可用空间”

我正在按照此视频教程尝试在我的计算机上设置 hadoop 如何在 Windows 10 上安装 Hadoop https www youtube com watch v zujpglKP0Nw 我已经成功设置它从 sbin 目录执行 st
运行 Sqoop 导入和导出时如何找到最佳映射器数量？

我正在使用 Sqoop 版本 1 4 2 和 Oracle 数据库运行 Sqoop 命令时例如这样 sqoop import fs
在 Hadoop MapReduce 中为二进制文件创建自定义 InputFormat 和 RecordReader

我正在编写一个 M R 作业该作业处理以二进制格式编写的大型时间序列数据文件如下所示此处换行以提高可读性显然实际数据是连续的 TIMESTAMP 1 TIMESTAMP 1 TIMESTAMP 2 TIMESTAMP 2 TIME
HBase、Hadoop：如何估计 HBase 表或 Hadoop 文件系统路径的大小？

我有多个 HBase 表如何估计在 java 中使用的表的大致大小一种方法是你必须使用java客户端访问hdfs 通常在 hbase文件夹所有表格信息将在场 Hadoop 外壳你可以检查使用hadoop fs du h path

随机推荐

C/C++ C++20 格式化库 std::format

说明文本格式化库提供 printf 函数族的安全且可扩展的替用品有意使之补充既存的 C I O 流库并复用其基础设施例如对用户定义类型重载的流插入运算符头文件 include
npm ERR! missing script dev

刚刚npm install之后执行npm run dev 出现的报错信息npm ERR missing script dev 1 一种可能时vue init webpack的时候多建了一层文件夹然后运行的时候没有找到package jso
MySQL--udf提权

udf提权 udf user defined function 即用户自定义函数是通过添加新函数对MYSQL的功能进行扩充如何获得udf文件将文件放到哪才能让mysql承认这个函数函数功能为什么这东西能提权自定义函数指令是直
Netty-UDP协议

2019独角兽企业重金招聘Python工程师标准 gt gt gt 实现一个UDP应用关键的点 1 和tcp的不同 udp没有接收的说法所以即使是接收端也使用Bootstrap 2 指定channel为NioDatagramChanne
汉字编码输入法综述

2 汉字编码输入法综述作者戴石麟 sbxlm 126 com 本章打算分基础工作理论研究和实用系统三个方面来对汉字编码输入技术的历史和现状进行综合评述最后指出现有技术中存在的问题并预测今后技术的发展趋势 2 1基础工作 1974年8
java 导入自定义类

eclipse导入很容易昨天上课学了一下用记事本写java 导入自定义类这就麻烦了代码贴一下方便操作 package tom jiafei public class SquareEquation double a b c doubl
【SpringMVC】Jrebel 插件实现热部署与文件上传

目录一 JRebel 1 1 Jrebel介绍 1 2 Jrebel插件下载 1 3 Jrebel服务下载并启动 1 4 在线生成GUID 1 5 JRebel激活 1 6 相关设置注意二文件上传下载 2 1 导入pom依赖 2
MATLAB 拟合神经网络—— fitnet

建立神经网络语法 net fitnet hiddenSizes trainFcn hiddenSize 为隐藏层数是一个行向量分别表示从左到右的隐藏层神经元数 trainFcn 为训练函数如下表所示名称函数 trainlm Le
go 进阶 go-zero相关: 三. go-zero 微服务基础示例

目录一 go zero 微服务基础安装 ETCD 1 docker 安装运行etcd 2 windows 安装 etcd 二 go zero使用goctl命令创建一个普通的服务三 go zero使用goctl命令创建一个rpc服务 1
python批量下载文件并压缩后上传到owncloud

目录 1 首先获的一个保存url的文件 2 下载文件到服务器 3 将文件上传到owncloud 3 1 上传单个文件 3 2 上传多个文件大文件拆分为小文件推荐摘要笔者想下载东西到本地直接下载速度超慢一共需要下载1500张图下
每天进步一点点【图的深度优先遍历（DFS）】

图是一种数据结构其中节点可以具有零个或多个相邻元素两个节点之间的连接称为边节点也可以称为顶点图分为三种无向图有向图带权图图的表示方式有两种二维数组表示邻接矩阵链表表示邻接表邻接矩阵邻接矩阵是表示图形中顶点之间相邻
局域网使用kubeadm安装高可用k8s集群

主机列表 ip 主机名节点 cpu 内存 192 168 23 100 k8smaster01 master 2核 2G 192 168 23 101 k8smaster02 node 2核 2G 192 168 23 102 k8sma
第三方支付自建商户池体系

三方支付自建商户池体系通常指的是第三方支付机构自己搭建的商户池管理系统商户池是指该支付机构所拥有的所有商户账户的集合在支付领域商户池的建立对于支付机构来说非常重要它可以帮助支付机构更有效地管理商户风控和支付流程以下是自建商户池体
Animator的基本用法

这里仅仅介绍Animator的一些基本的用法说到Animator 最重要的最常用的的就是ObjectAnimator类因为这个类可以对任意View的任意属性进行操作首先以ImageView为例以下所有的操作都针对ImageView
Node.js web3.js编译、部署智能合约

Node js web3 js编译部署智能合约供参考脚本 https github com Saturday24 Smart Contracts Script 1 编译脚本 a install web3 solc fs path b 编
linux查看所有的进程及端口,linux查看所有进程和端口

Linux下查看一个进程占用了哪个端口的方法时候需要在Linux下查看一个进程占用了那个端口但是只知道进程大致的名称比如要查看hadoop的namenode在哪个端口上运行以便在eclipse中连接首先用ps命令查看进程的id 复
校招算法题实在不会做，有没有关系？

文章目录前言一校招二时间复杂度 1 单层循环 2 双层循环三空间复杂度四数据结构五校招算法题实在不会做有没有关系六英雄算法集训前言英雄算法联盟八月集训已经接近尾声九月算法集训将于 09月01日正式开始
Mock 模拟测试简介及 Mockito 使用入门

Mock 是什么 mock 测试就是在测试过程中对于某些不容易构造或者不容易获取的对象用一个虚拟的对象来创建以便测试的测试方法这个虚拟的对象就是mock对象 mock对象就是真实对象在调试期间的代替品简单的看一张图我们在测试类 A
Java锁机制，synchronized和lock详解。

Java锁机制详解 1 java各种锁详解 1 1 公平锁 vs 非公平锁公平锁是指多个线程按照申请锁的顺序来获取锁线程直接进入队列中排队队列中的第一个线程才能获得锁类似排队打饭先来后到非公平锁是指多个线程获取锁的顺序并不是
HDFS的基础详解

概念 HDFS是Hadoop Distribute File System 的简称 Hadoop 分布式文件系统是hadoop核心组件之一作为最底层的分布式存储服务而存在分布式文件系统解决的问题就是大数据存储问题设计目标 1 硬件故

HDFS的基础详解

HDFS的基础详解 的相关文章

随机推荐

热门标签

HDFS的基础详解的相关文章