hdfs写数据流程

2023-11-12

上面图看不懂没关系，下面我有简单语言说明下其过程。

现在客户端要上传一个300M的文件。

1客户端先请求namenode,告诉namenode我有上传一个叫作cls_初解禁的文件。

2namenode检查元数据中是否有这个文件，有就告诉客户端这个文件已存在，没有就告诉客户端你可以上传了

3客户端收到namenode可以上传的消息，这个时候客户端将300M切片，将第一个black（128M）和副本数n(3)，告诉namenode.

4namenode收到客户端信息，选择3个datanode给客户端(dn1,dn3,dn4)

datanode的选择（空间/网络距离）这里是3个副本的情况

先选择最近的datanode（dn1）给客户端

在选择一个跨机架的datanode(dn3)给客户端，为什么要这样？是怕如果datanode都在同一个路由器（同机架）下，如果路由器坏了，就备份文件失效了，这是个可靠性的问题。

选择一个和第一个datanode（dn1）同机架的datanode(db4)给客户端。

5客户端收到来自namenode的datanode列表（有序的列表），选择第一个datanode（dn1）,发出建立通道请求，并将列表发给db1。

6 dn1收到客户端的通道请求和列表，这个时候dn1先没直接回复客户端，而是根据列表（有序）项db3发出建立通道请求。并将列表中dn1的状态标记改变（我猜的）

7重复6的步骤，dn3向db4发出建立通道请求。并将列表中dn3的状态标记改变（我猜的）

8dn4收到db3的建立通道请求，并发现列表中没有其他datanode了（不要向其他datanode建立通道请求），这个时候dn4回复dn3,我答应建立通道了，dn3收到回复，向dn1回复，我也答应建立通道了，dn1就告诉客户端，我答应建立通道了。这样客户端请求的通道就全部建立好了。

注意：即使dn3或者db4因为其他原因不能建立通道也没关系，只要dn1能和客户端建立通道就行，因为后期datanode会和namenode保持通讯（间隔时间，副本拷贝）。

8客户端收到消息，已经能和dn1正常通讯了。将第一个black(128M)拆分为多个packet(64K)，顺序发送给db1

9db1收到package，将它放到缓冲池（byteBuffer）里面,校验packet,校验成功后，将packet存入本地文件系统中，并将packet发给db3

10 dn3重复9的工作。

11 客户端将第一128M（black）发送完了。现在要发送第二个black，这个时候客户端重复3到10的步骤，直到将文件上传完。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

大数据

Hadoop

hdfs写数据流程的相关文章

是否值得购买 Mahout in Action 以跟上 Mahout 的速度，或者还有其他更好的来源吗？

我目前是一个非常随意的用户阿帕奇马胡特 http mahout apache org 我正在考虑购买这本书象夫在行动 http www manning com owen 不幸的是我很难理解这本书的价值并且认为它是一本曼宁早期访问计划 h
hive创建表的多个转义字符

我正在尝试将带有管道分隔符的 csv 加载到配置单元外部表数据值包含单引号双引号括号等使用 Open CSV 版本 2 3 测试文件 csv id name phone 1 Rahul 123 2 Kumar s 456 3 Nee
遍历 ArrayWritable - NoSuchMethodException

我刚刚开始使用 MapReduce 并且遇到了一个奇怪的错误我无法通过 Google 回答该错误我正在使用 ArrayWritable 制作一个基本程序但是当我运行它时在Reduce过程中出现以下错误 java lang Runti
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
Hive - 线程安全的自动递增序列号生成

我遇到一种情况需要将记录插入到特定的 Hive 表中其中一列需要是自动递增的序列号即在任何时间点都必须严格遵循 max value 1 规则记录从许多并行的 Hive 作业插入到这个特定的表中这些作业每天每周每月批量运行现在
如何将SQL数据加载到Hortonworks中？

我已在我的电脑中安装了 Hortonworks SandBox 还尝试使用 CSV 文件并以表结构的方式获取它这是可以的 Hive Hadoop nw 我想将当前的 SQL 数据库迁移到沙箱 MS SQL 2008 r2 中我将如何做
运行时异常：java.lang.NoSuchMethodException：tfidf$Reduce.()

如何解决这个问题 tfidf是我的主类为什么运行jar文件后会出现这个错误 java lang RuntimeException java lang NoSuchMethodException tfidf Reduce
适用于 Hadoop 的 DynamoDB 输入格式

我必须使用 Hadoop mapreduce 处理保留在 Amazon Dynamodb 中的一些数据我在互联网上搜索 Dynamo DB 的 Hadoop InputFormat 但找不到它我对 Dynamo DB 不熟悉所以我猜测
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current
Flume将数据从MySQL迁移到Hadoop

请分享您的想法需求是将MySQL db中的数据迁移到Hadoop HBase进行分析数据应该实时或接近实时地迁移 Flume可以支持这个吗有什么更好的方法据我了解 Flume 并不是为此而设计的 Flume 基本上用于读取日志如数
如何跟踪hadoop中哪个数据块在哪个数据节点？

如果复制一个数据块会复制到哪个数据节点是否有任何工具可以显示复制块存在的位置如果您知道文件名则可以通过 DFS 浏览器查找转到您的 namenode Web 界面说浏览文件系统并导航到您感兴趣的文件在页面底部将列出文件中
Spark 写入 hdfs 无法使用 saveAsNewAPIHadoopFile 方法

我在 CDH 5 2 0 上使用 Spark 1 1 0 并试图确保我可以读取和写入 hdfs 我很快意识到 textFile 和 saveAsTextFile 调用旧的 api 并且似乎与我们的 hdfs 版本不兼容 def testHD
如何找到 JAR：/home/hadoop/contrib/streaming/hadoop-streaming.jar

我正在练习有关 Amazon EMR 的复数视角视频教程我被困住了因为我收到此错误而无法继续 Not a valid JAR home hadoop contrib streaming hadoop streaming jar 请注意
无法验证 serde：org.openx.data.jsonserde.jsonserde

我编写了这个查询来在配置单元上创建一个表我的数据最初是 json 格式所以我已经下载并构建了 serde 并添加了它运行所需的所有 jar 但我收到以下错误 FAILED Execution Error return code 1 fr
将 Spark 添加到 Oozie 共享库

默认情况下 Oozie 共享 lib 目录提供 Hive Pig 和 Map Reduce 的库如果我想在 Oozie 上运行 Spark 作业最好将 Spark lib jar 添加到 Oozie 的共享库而不是将它们复制到应用程序
更改 Hadoop 中的数据节点数量

如何改变数据节点的数量即禁用和启用某些数据节点来测试可扩展性说得更清楚一点我有4个数据节点我想一一实验1 2 3 4个数据节点的性能是否可以只更新名称节点中的从属文件临时停用节点的正确方法创建一个排除文件这列出了您想要删除
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
使用 org.apache.hadoop/* 依赖项离线编译 sbt 时遇到的问题

使用依赖于 org apache hadoop 包的 sbt 进行离线编译时遇到很多麻烦一个简单的build sbt name Test version 1 0 scalaVersion 2 10 4 libraryDependencie

随机推荐

基于Zigbee的SHT10温湿度数据采集系统(已实现控制12个终端节点)——Zigbee协调器主要代码解析

之前实现了基于Zigbee的SHT10温湿度数据采集系统这里来重新复盘一些主要的知识和代码写在前面 1 功能介绍使用Zigbee终端节点采集环境的温度和湿度数据然后将数据无线发送的Zigbee协调器最后在电脑端显示获得到的数据 2
Ubuntu初学思维导图（后继续补充）

关于虚拟机 Ubuntu的命令内容简要 1 创建用户 sudo adduser user01 创建用户时同步创建对应组同步创建家目录 sudo useradd user02 仅创建用户单独设置完密码后才能登陆 2 修改用户密码 su
http请求头部（header）详解

当我们在浏览器中访问一个网站时我们的浏览器实际上会向该网站发送一个 HTTP 请求而 HTTP 请求头部 Header 则是一组包含请求信息的键值对用来描述 HTTP 请求的各种属性和特征以下是 HTTP 请求头部的一些常见属性和含
linux重启服务的脚本命令

最近做网站测试每次测试完成都要重启服务为此写了一个简单的shell脚本 linux服务重启shell脚本示例 2014年12月18日 linux服务重启脚本如何实现linux服务的定时重启可以借助shell脚本来完成 ps命令捕获进
方差分析在特征筛选中的应用

方差分析在特征筛选中的应用方差分析 Analysis of Variance 简称ANOVA 是一种常见的统计分析方法它可以用于比较两个或多个组之间的均值差异在机器学习中我们可以应用方差分析来进行特征筛选从而得到对模型有显著影响的
高光谱图像端元提取——vertex component analysis（VCA/python）

在高光谱图像中 VCA是一种常用的端元提取方法算法来源 Vertex Component Analysis A Fast Algorithm to Unmix Hyperspectral Data submited to IEEE Tra
伺服电机堵转检测

一电流数据的分析电机工作时的电流如下图电机正常工作时电机电流具有两个状态正常旋转和堵转正常旋转时电流在控制算法的作用下一开始会有很快的上升过程中电流受到控制算法的作用没有平稳阶段堵转时电机结束了控制算法所以堵转时电
常见信息安全加密算法及Python库源码实例

1 常见的信息安全加密算法 1 1 对称加密算法 AES Advanced Encryption Standard 对称密钥加密算法被广泛使用且安全可靠 DES Data Encryption Standard 对称密钥加密算法已被AE
系统服务器性能巡检报告,pc服务器巡检报告

pc服务器巡检报告内容精选换一换简要介绍iPerf是一种命令行工具它通过测量服务器可以处理的最大网络吞吐量来测试网络速度因此在遇到网络速度问题时特别有用通过该工具可以确定哪台服务器存在性能问题语言 C C 一句话概述网络性能
当HBase遇上MapReduce

第1关 HBase的MapReduce快速入门本关任务编写一个HBase的MapReduce配置程序 package com processdata import java io IOException import java util
K8S 剖析API对象类型

K8S API对象类型一 metav1 TypeMeta 对象的类型元数据信息 1 1 类型成员定义了资源类型和api版本 type TypeMeta struct Kind string json kind omitempty pro
数据库读写分离，主从同步实现方法

前言众所周知随着用户量的增多数据库操作往往会成为一个系统的瓶颈所在而且一般的系统读的压力远远大于写因此我们可以通过实现数据库的读写分离来提高系统的性能实现思路通过设置主从数据库实现读写分离主数据库负责写操作从数据库
regionprops函数用法详解

转自 http apps hi baidu com share detail 24010679 Regionprops 用途是get the properties of region 即用来度量图像区域属性的函数语法 STATS regi
latex公式记录（待完善）

记录使用latex过程中遇到的公式符号等 1 空格 quad 2 大于等于 geq 小于等于 leq 大于 textgreater 小于 textless 3 括号大括号 a 绝对值 lvert a rvert 内积尖括号 langle
【PCIe 5.0 - 8】PCIe 事务层详解4 - First/Last DW Byte Enables规则

First Last DW Byte Enables规则 Byte Enables包含在Memory I O 和Configuration Requests中本节定义了相应的规则 Byte Enables出现在Request header
IDE /字符串 /字符编码与文本文件(如cpp源代码文件)

文章目录概述文本编辑器如何识别文件的编码格式优先推测使用了UTF 8编码字符编码的BOM字节序标记重分析各文本编辑器下的测试效果 Qt Creator的文本编辑器系统记事本 VS的文本编辑器 Notepad 编译器与代码文件的字
Python实现十进制小数转IEEE754单精度浮点数转换

def ConvertFixedIntegerToComplement fixedInterger 浮点数整数部分转换成补码整数全部为正 return bin fixedInterger 2 def ConvertFixedDecimal
VUE自定义指令directive和inserted

VUE自定义指令directive和inserted 1 什么事自定义指令 1 2使用自定义指令的方式 2 设置自定义组件 2 1 设置全局指令 2 2 设置私有指令 2 3 钩子函数 3 案例 1 什么事自定义指令指令 Directiv
Java实现给图片局部打马赛克

因为项目需要用到给图片打码的功能本身实现也不是很复杂就没有借鉴其他类库参照网上的一些资料实现了一个简单的给图片局部打码的功能也可以给一个图片的多个局部进行打码 ImageArea java package com test 图片区域
hdfs写数据流程

上面图看不懂没关系下面我有简单语言说明下其过程现在客户端要上传一个300M的文件 1客户端先请求namenode 告诉namenode我有上传一个叫作cls 初解禁的文件 2namenode检查元数据中是否有这个文件有就告诉客户端这个

热门标签