HDFS读写流程介绍，HDFS读数据和写数据的原理是什么？

2023-05-16

Client(客户端)对HDFS中的数据进行读写操作，分别是Client从HDFS中查找数据，即为Read(读)数据;Client从HDFS中存储数据，即为Write(写)数据。下面我们对HDFS的读写流程进行详细的介绍。假设有一个文件1.txt文件，大小为300M，这样就划分出3个数据块，如图1所示。

　　图1 文件划分情况

　　下面，我们借助图1所示的文件，分别讲解HDFS文件读数据和写数据的原理。

　　1.HDFS写数据原理

　　在我们把文件上传到HDFS系统中，HDFS究竟是如何存储到集群中去的，又是如何创建备份的，接下来我们来学习客户端向HDFS中的写数据的流程，如图2所示。

　　图2 HDFS写数据流程

　　从图2可以看出，HDFS中的写数据流程可以分为12个步骤，具体如下：

　　(1) 客户端发起文件上传请求，通过RPC(远程过程调用)与NameNode建立通讯。

　　(2) NameNode检查元数据文件的系统目录树。

　　(3) 若系统目录树的父目录不存在该文件相关信息，返回客户端可以上传文件。

　　(4) 客户端请求上传第一个Block数据块，以及数据块副本的数量(可以自定义副本数量，也可以使用集群规划的副本数量)。

　　(5) NameNode检测元数据文件中DataNode信息池，找到可用的数据节点(DataNode_01，DataNode_02，DataNode_03)。

　　(6) 将可用的数据节点的IP地址返回给客户端。

　　(7) 客户端请求3台节点中的一台服务器DataNode_01，进行传送数据(本质上是一个RPC调用，建立管道Pipeline)，DataNode_01收到请求会继续调用服务器DataNode_02，然后服务器DataNode_02调用服务器DataNode_03。

　　(8) DataNode之间建立Pipeline后，逐个返回建立完毕信息。

　　(9) 客户端与DataNode建立数据传输流，开始发送数据包(数据是以数据包形式进行发送)。

　　(10) 客户端向DataNode_01上传第一个Block数据块，是以Packet为单位(默认64K)，发送数据块。当DataNode_01收到一个Packet就会传给DataNode_02，DataNode_02传给DataNode_03; DataNode_01每传送一个Packet都会放入一个应答队列等待应答。

　　(11) 数据被分割成一个个Packet数据包在Pipeline上依次传输，而在Pipeline反方向上，将逐个发送Ack(命令正确应答)，最终由Pipeline中第一个DataNode节点DataNode_01将Pipeline的 Ack信息发送给客户端。

　　(12) DataNode返回给客户端，第一个Block块传输完成。客户端则会再次请求NameNode上传第二个Block块和第三块到服务器上，重复上面的步骤，直到3个Block都上传完毕。

　　小提示：

　　Hadoop在设计时考虑到数据的安全与高效，数据文件默认在HDFS上存放三份，存储策略为本地一份，同机架内其他某一节点上一份，不同机架的某一节点上一份。

　　Ack：检验数据完整性的信息。

　　2.HDFS读数据流程

　　在前面我们已经知道客户端向HDFS写数据的流程，接下来我们来学习客户端从HDFS中读数据的流程，如图3所示。

　　图3 HDFS读数据流程

　　从图3可以看出，HDFS中的读数据流程可以分为4个步骤，具体如下：

　　(1) 客户端向NameNode发起RPC请求，来获取请求文件Block数据块所在的位置。

　　(2) NameNode检测元数据文件，会视情况返回Block块信息或者全部Block块信息，对于每个Block块，NameNode都会返回含有该Block副本的DataNode地址。

　　(3) 客户端会选取排序靠前的DataNode来依次读取Block块(如果客户端本身就是DataNode，那么将从本地直接获取数据)，每一个Block都会进行CheckSum(完整性验证)，若文件不完整，则客户端会继续向NameNode获取下一批的Block列表，直到验证读取出来文件是完整的，则Block读取完毕。

　　(4) 客户端会把最终读取出来所有的Block块合并成一个完整的最终文件(例如：1.txt)。

　　小提示：

　　NameNode返回的DataNode地址，会按照集群拓扑结构得出DataNode与客户端的距离，然后进行排序。排序有两个规则：网络拓扑结构中距离客户端近的则靠前;心跳机制中超时汇报的DataNode状

推荐学习：

大数据hadoop教程入门
完整视频：http://yun.itheima.com/course/301.html?2010stt
配套资料：https://pan.baidu.com/s/1Pyu8elrgkPrbPVDmdi-jBg 提取码：mc4g

云计算大数据linux教程
完整视频：http://yun.itheima.com/course/358.html?2010stt
配套资料：https://pan.baidu.com/s/15StHwJaSiw-emT5bI59jcw 密码：gzni

云计算大数据之zookeeper教程
完整视频：http://yun.itheima.com/course/359.html?2010stt
配套资料：https://pan.baidu.com/s/18hOeFO8RqzkwLWk7HDUwkA 提取码：oop2

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

HDFS读写流程介绍，HDFS读数据和写数据的原理是什么？的相关文章

写入 Hadoop 中 HDFS 中的文件

我一直在寻找一个磁盘密集型 Hadoop 应用程序来测试 Hadoop 中的 I O 活动但我找不到任何此类应用程序可以使磁盘利用率保持在上述水平例如 50 或者某些此类应用程序实际上使磁盘保持繁忙我尝试了 randomwriter
Flume的Spool Dir可以在远程机器上吗？

每当新文件到达特定文件夹时我就尝试将文件从远程计算机获取到我的 hdfs 我在flume中遇到了spool dir的概念如果spool dir位于运行flume代理的同一台机器上那么它工作得很好有什么方法可以在远程计算机中配置假脱机
Hadoop - Map-Reduce 任务如何知道要处理文件的哪一部分？

我已经开始学习 hadoop 目前我正在尝试处理结构不太好的日志文件因为我通常用于 M R 键的值通常位于文件的顶部一旦所以基本上我的映射函数将该值作为键然后扫描文件的其余部分以聚合需要减少的值因此假日志可能如下所示 log
无法启动 CDH4 辅助名称节点：NameNode 地址的 URI 无效

我一直在尝试设置 hadoop 的 CDH4 安装我有 12 台机器标记为 hadoop01 hadoop12 名称节点作业跟踪器和所有数据节点都启动良好我可以查看 dfshealth jsp 并看到它找到了所有数据节点但是每当
本文中的“本地数据缓存”是什么意思？

摘自以下正文 http developer yahoo com hadoop tutorial module2 html 它提到顺序可读的大文件不适合本地缓存但我不明白本地是什么意思我认为有两个假设一是Client缓存来自HDFS的数
从udf访问hdfs文件

我想通过 udf 调用访问文件这是我的脚本 files LOAD docs in USING PigStorage AS id stopwords id2 file buzz FOREACH files GENERATE pigbuzz
全新安装时的 HDFS 空间使用情况

我刚刚安装了 HDFS 并启动了该服务并且已使用空间已经超过800MB 它代表什么 hdfs dfs df h Filesystem Size Used Available Use hdfs quickstart cloudera 802
PySpark：使用 newAPIHadoopFile 从多行记录文本文件中读取、映射和减少

我正在尝试解决一个类似于这个帖子 https stackoverflow com questions 31227363 creating spark data structure from multiline record 我的原始数据是一
Hadoop 中的分割大小与块大小

Hadoop 中的分割大小和块大小之间有什么关系当我读到this http willddy github io 2012 08 25 Hadoop Split and Block html 分割大小必须是块大小的n倍 n是整数并且n gt
HDFS 作为 cloudera 快速入门 docker 中的卷

我对 hadoop 和 docker 都很陌生我一直致力于扩展 cloudera quickstart docker 镜像 docker 文件并希望从主机挂载一个目录并将其映射到 hdfs 位置以便提高性能并将数据保存在本地当我在任
如何使用pyspark从HDFS读取docx/pdf文件？

我想使用 pyspark 从 Hadoop 文件系统读取 DOCX PDF 文件目前我正在使用 pandas API 但在 pandas 中我们有一些限制我们只能读取 CSV JSON XLSX 和 HDF5 它不支持任何其他格式目前
gzip 文件如何存储在 HDFS 中

HDFS存储支持压缩格式来存储压缩文件我知道 gzip 压缩不支持夹板现在假设该文件是一个 gzip 压缩文件其压缩大小为 1 GB 现在我的问题是该文件将如何存储在 HDFS 中块大小为 64MB 由此link http com
hadoop 连接在端口 9000 上被拒绝

我想设置一个伪分布式模式的hadoop集群进行开发由于端口 9000 上的连接被拒绝尝试启动 hadoop 集群失败这些是我的配置非常标准站点核心 xml
Spark 作业在 YARN 模式下失败

我有一个用 Scala 编写的 Spark 程序它从 HDFS 读取 CSV 文件计算新列并将其保存为 parquet 文件我正在 YARN 集群中运行该程序但每次我尝试启动它时执行程序都会在某个时候失败并出现此错误您能帮我找出
HDFS 在大量小文件和 128 Mb 块大小上的行为

我有很多多达数十万个小文件每个文件 10 100 Kb 我的 HDFS 块大小等于 128 MB 我的复制因子等于 1 为每个小文件分配 HDFS 块有什么缺点吗我见过相当矛盾的答案答案说最小的文件占用整个块 https stac
如何为 HDFS 递归列出子目录？

我在 HDFS 中递归创建了一组目录如何列出所有目录对于普通的 UNIX 文件系统我可以使用以下命令来做到这一点 find path type d print 但我想为 HDFS 得到类似的东西递归列出目录内容hadoop dfs
无法使用 PDI 步骤连接到 HDFS

我已经配置成功了Hadoop 2 4 in an Ubuntu 14 04 虚拟机 from a 视窗8系统 Hadoop 安装工作绝对正常而且我还可以从 Windows 浏览器查看 Namenode 附图如下所以我的主机名是 ubu
连接到 Hive 时使用 Spark 进行 Kinit

我正在尝试从独立的 Spark 连接到 Hive hadoop 集群具有 kerberos 身份验证有人可以让我知道如何在 Spark 程序中执行 kinit 我可以连接到配置单元吗更新我的 Spark 与 Hadoop 位于不同的集
Namenode高可用客户端请求

谁能告诉我如果我使用java应用程序请求一些文件上传下载操作到带有Namenode HA设置的HDFS 这个请求首先去哪里我的意思是客户端如何知道哪个名称节点处于活动状态如果您提供一些工作流程类型图或详细解释请求步骤从开始到结束
MiniDFSCluster UnsatisfiedLinkError org.apache.hadoop.io.nativeio.NativeIO$Windows.access0

做时 new MiniDFSCluster Builder config build 我得到这个异常 java lang UnsatisfiedLinkError org apache hadoop io nativeio NativeIO

随机推荐

计网笔记网络层（中）

前面的话这篇文章继上一篇 xff0c 是关于网络层的其他知识的梳理目录 1 划分子网 2 使用子网时分组的转发 3 无分类域间路由选择CIDR xff08 构造超网 xff09 4 网际控制报文协议ICMP 划分子网前面讲到的两级IP
C++与C语言的区别

1 C 43 43 的创建历程 xff1a 20世纪70年代中期 xff0c Bjarne Stroustrup在剑桥大学计算机中心工作他使用过Simula和ALGOL xff0c 接触过C 他对Simula的类体系感受颇深 xff0c
moment的startOf、endOf使用

moment的startOf endOf使用举例 xff1a 今天的日期 xff1a 2020 04 14 16 41 startOf语法 xff1a moment startOf String 通过将原始的 moment 设置为时单位的
133道Java面试题及答案（面试必看）

Java 面试随着时间的改变而改变在过去的日子里 xff0c 当你知道 String 和 StringBuilder 的区别就能让你直接进入第二轮面试 xff0c 但是现在问题变得越来越高级 xff0c 面试官问的问题也更深入在我初入职
JS的test()方法

解析解释 xff1a js的test 方法用于检测一个字符串是否匹配某个格式语法 xff1a RegExpObject test string 返回值 xff1a 如果String中含有RegExpObject中匹配的字符返回true
实时获取当前时间并展示在页面上

简介实时获取当前时间并展示在页面上 xff0c 是很多地方常用的 xff1b 在页面中做此展示以便查看时间本文使用js通过一个小的demo实现效果完整Code span class token operator lt span spa
Visual Studio Code提交代码提示“Make sure you configure your ‘user.name‘ and ‘user.email‘ in git.”

使用VSCode编译器提交代码到gitlab xff0c 编译器提示 Make sure you configure your 39 user name 39 使用编译器VSCode提交代码到GitLab xff0c 提示 Make sur
React编译代码报错提示：React was passed “javascript:；“。

React编译代码提示报错信息 xff1a React编译代码提示报错信息 xff1a Warning A future version of React will block javascript URLs as a security p
如何添加Iconfont图标到项目及创建新项目？

1 搜索图标或者选择自己上传图标 2 选择图标 xff0c 加入库 3 点击购物车图标 xff0c 如果已经创建项目直接选择点击确定 xff1b 如果没有创建项目点击 43 创建项目 4 输入新项目名称 xff0c 点击确定 5 确定后
antd icon 图标组件的使用

antd提供的icon有限 xff0c 可以直接使用iconfont图标库的图标 1 安装图标组件包 npm install save 64 ant design icons 2 创建图标 import createFromIconfont
字符串解析为指定格式

将张三李四王五赵六解析为张三李四 xff08 共4人 xff09 使用 xff1a let str 61 39 张三李四王五赵六 39 empsDeal str 39 张三李四共4人 39 方法 xff1a cons
清除redux数据（hooks写法）

清除redux数据的场景 A页面初始化调用A接口 xff0c 希望在当前页面生效 xff0c 跳转页面不保存数据 xff0c 但redux中已经存有历史数据 xff0c 所以在页面销毁时清除redux数据 A页面请求A接口 useEffec
跳转页面方法

跳转页面 window location href 61 url 替换当前页面 window location replace url
嵌入式面试总结

毕业一年多了 xff0c 从事嵌入式开发工作不知不觉也一年多了 xff0c 题主主要从事单片机 xff08 STM32 xff09 应用开发工业类电子方向 xff0c 纯技术涉及到的内容主要是C语言 arm STM32驱动 FreeRTOS
数据库ER图基础概念整理

ER图分为实体属性关系三个核心部分实体是长方形体现 xff0c 而属性则是椭圆形 xff0c 关系为菱形 ER图的实体 xff08 entity xff09 即数据模型中的数据对象 xff0c 例如人学生音乐都可以作为一个数据对象
如何成为一个全能的机器人工程师

大疆技术总监 xff1a 如何用六年成为一个全能的机器人工程师机器人学的核心问题是做好和物理世界的交互现在主流的机器人学分支里 xff0c 处理与物理世界的交互的学科分为三类 xff1a 传感器和处理算法 xff1b 多刚体系统动力学控
任务调度算法

可实现在单片机裸机下还能有很好的实时性任务调度器 SCHEDULER TASK scheduler tasks 61 amp P loop 1000Hz 1000 0 0 amp P loop 500Hz 500 0 0 amp P lo
阿里云云计算ACP学习（一）---弹性计算

弹性计算 1 ECS的概念与定位概念 xff1a 云服务器ECS xff08 Elastic Compute Service xff09 是一种可弹性伸缩的计算服务 xff0c 可以帮助降低IT成本 xff0c 提升运维效率 xff0c
阿里云云计算ACP学习（二）---弹性存储

弹性存储 1 阿里云盘古盘古飞天底层同一存储平台盘古的优势 xff1a 盘古系统在一个核心基础层之上 xff0c 通过为不同应用场景而抽象的适配层设计 xff0c 提供了分布式块存储系统和分布式文件系统两种形态 xff0c 基于这一套
HDFS读写流程介绍，HDFS读数据和写数据的原理是什么？

Client 客户端对HDFS中的数据进行读写操作 xff0c 分别是Client从HDFS中查找数据 xff0c 即为Read 读数据 Client从HDFS中存储数据 xff0c 即为Write 写数据下面我们对HDFS的读写流

HDFS读写流程介绍，HDFS读数据和写数据的原理是什么？

HDFS读写流程介绍，HDFS读数据和写数据的原理是什么？ 的相关文章

随机推荐

热门标签

HDFS读写流程介绍，HDFS读数据和写数据的原理是什么？的相关文章