HDFS 实验 (一) 原理

2023-05-16

原文在此

https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html

hadoop 两大组件 mapreduce和hdfs

用HDFS的目标

避免硬件故障

硬件故障是常态，而不是例外。一个HDFS实例可能包括数百或数千个服务器，存储文件系统的部分数据。事实上，有大量的组件，每个组件都有一个非平凡的失效概率意味着HDFS的一些组件总是非功能。因此，故障的快速检测，从自动的恢复是HDFS的一个核心构架目标。

流式数据访问

应用程序运行在HDFS需要流媒体访问他们的数据集。它们不是一般用途的文件系统上运行的通用应用程序。HDFS被设计为批处理，而不是由用户交互使用。重点是高吞吐量的数据访问，而不是低延迟的数据访问。POSIX的一些要求是不是有针对性的HDFS的应用所需要的。在几个关键的领域POSIX语义被交易来增加数据吞吐量。

大数据集

HDFS上运行的应用程序有大量的数据集。HDFS中典型的文件大小百万兆字节字节。因此，HDFS被调谐到支持大文件。它应该为单个集群中的数百个节点提供高聚合数据带宽和规模。它应该在一个实例中支持数以千万计的文件。

一致性模型

HDFS的应用需要写一次读文件的许多访问模型。创建、写入和关闭的文件不需要更改。这种假设简化了数据一致性问题，并允许高吞吐量数据访问。MapReduce应用程序或Web爬虫应用程序非常适合这个模型。有一个计划支持在将来追加对文件的写操作。

移动计算比移动数据便宜

应用程序请求的计算如果在其所运行的数据附近执行，则效率要高得多。当数据集的大小是巨大的时，情况尤其如此。这减少了网络拥塞，提高了系统的总体吞吐量。假设是，将计算迁移到数据位置的位置通常更好，而不是将数据移动到应用程序运行的地方。HDFS提供的接口的应用将更接近数据所在。

跨异构硬件和软件平台的可移植性

HDFS被设计为可以很容易从一个平台移植到另一个。这有利于广泛采用HDFS作为一个大的应用平台的选择。

节点和数据节点

HDFS有主从式架构。一个HDFS集群由一个单一的节点，一个主服务器，管理文件系统的命名空间和调节客户访问文件。此外，有多个数据节点，通常每一个节点的集群，其中管理连接到节点，它们运行在存储。HDFS文件系统命名空间暴露并允许用户将数据存储在文件中。在内部，一个文件被分成一个或多个数据块，这些块存储在一组数据节点。Namenode执行文件系统的命名空间操作如打开，关闭，和重命名文件和目录。这也决定了数据块到数据节点的映射。数据节点负责为读写文件系统的客户端的请求。数据节点执行创建，删除，并从NameNode在指令复制。

原理图

architecture

复制原理

HDFS的设计可靠地存储非常大的文件在机器在一大簇。它将每个文件存储成一组块；除了最后一个块之外，文件中的所有块都是相同的大小。文件的块被复制用于容错。块大小和复制因子可配置为每个文件。应用程序可以指定文件副本的个数。复制因子可以在文件创建时指定，以后可以更改。文件在HDFS写一次，随时都有严格的作家。

对于复制块的所有决定。它定期收到的心跳，从集群中的每个数据节点blockreport。一个心跳的收据表明DataNode运行正常。一个blockreport列出所有在DataNode块。

翻译文，请笑纳。。。。

dfsdatanodes

FS Shell 文件操作

Action

Command

Create a directory named /foodir

bin/hadoop dfs -mkdir /foodir

Remove a directory named /foodir

bin/hadoop dfs -rmr /foodir

View the contents of a file named /foodir/myfile.txt

bin/hadoop dfs -cat /foodir/myfile.txt

FS shell is targeted for applications that need a scripting language to interact with the stored data.

DFSAdmin

The DFSAdmin command set is used for administering an HDFS cluster. These are commands that are used only by an HDFS administrator. Here are some sample action/command pairs:

Action

Command

Put the cluster in Safemode

bin/hadoop dfsadmin -safemode enter

Generate a list of DataNodes

bin/hadoop dfsadmin -report

Recommission or decommission DataNode(s)

bin/hadoop dfsadmin -refreshNodes

api的链接如下，可以用c或者java

http://hadoop.apache.org/docs/current/api/

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

HDFS

HDFS 实验 (一) 原理的相关文章

写入 Hadoop 中 HDFS 中的文件

我一直在寻找一个磁盘密集型 Hadoop 应用程序来测试 Hadoop 中的 I O 活动但我找不到任何此类应用程序可以使磁盘利用率保持在上述水平例如 50 或者某些此类应用程序实际上使磁盘保持繁忙我尝试了 randomwriter
Hadoop - Map-Reduce 任务如何知道要处理文件的哪一部分？

我已经开始学习 hadoop 目前我正在尝试处理结构不太好的日志文件因为我通常用于 M R 键的值通常位于文件的顶部一旦所以基本上我的映射函数将该值作为键然后扫描文件的其余部分以聚合需要减少的值因此假日志可能如下所示 log
本文中的“本地数据缓存”是什么意思？

摘自以下正文 http developer yahoo com hadoop tutorial module2 html 它提到顺序可读的大文件不适合本地缓存但我不明白本地是什么意思我认为有两个假设一是Client缓存来自HDFS的数
一个目录中有多少个子目录？

如何查找HDFS中指定目录下的子目录数量当我做hadoop fs ls mydir 我收到 Java 堆空间错误因为目录太大但我感兴趣的是该目录中的子目录数量我试过 gsamaras gwta3000 hadoop fs find
检查HDFS目录大小的方法？

I know du sh在常见的 Linux 文件系统中但是如何使用 HDFS 做到这一点呢 0 20 203 之前并在 2 6 0 中正式弃用 hadoop fs dus directory 自从0 20 203 http hadoo
当在HBase中反转Scan时，哪个是startKey，哪个是stopKey？

我使用的是 HBase 0 98 它允许以相反的顺序进行扫描这是我的代码 scan new Scan eventTimeKey nowKey scan setCaching 1 setting this to 1 since I only
Hadoop：...被复制到 0 个节点，而不是 minReplication (=1)。有 1 个数据节点正在运行，并且此操作中没有排除任何节点

当我尝试将 HDFS 写入作为多线程应用程序的一部分时出现以下错误 could only be replicated to 0 nodes instead of minReplication 1 There are 1 datanode
是否可以将数据导入Hive表而不复制数据

我将日志文件以文本形式存储在 HDFS 中当我将日志文件加载到 Hive 表中时所有文件都会被复制我可以避免所有文本数据存储两次吗编辑我通过以下命令加载它 LOAD DATA INPATH user logs mylogfile
全新安装时的 HDFS 空间使用情况

我刚刚安装了 HDFS 并启动了该服务并且已使用空间已经超过800MB 它代表什么 hdfs dfs df h Filesystem Size Used Available Use hdfs quickstart cloudera 802
什么是“HDFS 写入管道”？

当我阅读 hadoop 权威指南时我坚持以下句子写入reduce输出确实会消耗网络带宽但仅作为与普通 HDFS 写入管道消耗的量差不多问题 1 能帮我更详细地理解上面这句话吗 2 HDFS写入管道是什么意思当文件写入 HDFS
Hadoop 块大小 vs 分割 vs 块大小

我对 Hadoop 的概念有点困惑有什么区别Hadoop Chunk size Split size and Block size 提前致谢块大小和块大小是一样的分体尺寸可能不同于块块 size 地图缩减算法不适用于文件的物理块它
尝试在 h5py 中打开 pandas 创建的 hdf 时缺少列

这就是我的数据框的样子第一列是一个整数第二列是 512 个整数的单个列表 IndexID Ids 1899317 0 47715 1757 9 38994 230 12 241 12228 22861131 0 48156 154 63
HDFS 作为 cloudera 快速入门 docker 中的卷

我对 hadoop 和 docker 都很陌生我一直致力于扩展 cloudera quickstart docker 镜像 docker 文件并希望从主机挂载一个目录并将其映射到 hdfs 位置以便提高性能并将数据保存在本地当我在任
格式化 HDFS 时出现 UnknownHostException

我已经使用以下命令在伪分布式模式下在 CentOS 6 3 64 位上安装了 CDH4指示 https ccp cloudera com display CDH4DOC Installing CDH4 on a Single Linux N
如何更改 Spark 程序的 HDFS 复制因子？

我需要将 Spark 程序的 HDFS 复制因子从 3 更改为 1 在搜索时我想出了 spark hadoop dfs replication 属性但是通过查看https spark apache org docs latest con
如何将位于 HDFS 上的类型安全配置文件添加到 Spark-Submit（集群模式）？

我有一个 Spark Spark 1 5 2 应用程序它将数据从 Kafka 流式传输到 HDFS 我的应用程序包含两个 Typesafe 配置文件来配置某些内容例如 Kafka 主题等现在我想在集群中使用spark submit 集
Hadoop 顺序数据访问

根据 Hadoop 权威指南 HDFS 是一个文件系统设计用于存储非常大的文件流式或顺序数据访问模式什么是流式或顺序数据访问它如何减少磁盘的寻道时间这并不是 Hadoop 特有的顺序访问模式是指按顺序读取数据通常是从开始到结束
使用 FSDataOutputStream 将不需要的字符从 java REST-API 写入 HadoopDFS

我们构建了一个 java REST API 来接收事件数据例如单击购买按钮并将该数据写入 HDFS 本质上我们为发送数据以 JSON 形式的每个主机打开流或者使用现有的流使用时间戳事件名称和主机名丰富数据并将其写入 FS
如何将 Jar 文件传递到 OOZIE shell 节点中的 shell 脚本

您好我在 oozie shell 操作工作流程中执行的脚本中运行 java 程序时遇到以下错误 Stdoutput 2015 08 25 03 36 02 636 INFO pool 1 thread 1 ProcessExecute j
使用 Python3 与 HDFS 交互的最佳模块是什么？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我看到有 hdfs3 snakebite 和其他一些哪一个支持最好且最全面据我所知可能性并不像人们想象的那么多但我建议使用官方的Pyth

随机推荐

云服务器装操作系统吗,云服务器能装操作系统吗

云服务器能装操作系统吗内容精选换一换监控是保持云耀云服务器可靠性可用性和性能的重要部分 xff0c 通过监控 xff0c 用户可以观察云耀云服务器资源为使用户更好地掌握自己的云耀云服务器运行状态 xff0c 公有云平台提供了云监控
打造性能服务器图片,详解用node-images打造简易图片服务器.pdf

详详解解用用node images 打打造造简简易易图图片片服服务务器器 Edit 2016 5 11 修正了代码里面一些明显的错误 xff0c 并发布在 aj axj s 之中 xff0c 源码在这里 Edit 2016 5 24 加入
企业应用：浅谈 “数据权限” 和查询 API 设计

背景多数企业应用都需要对数据权限进行控制 xff0c 如 xff1a 某个用户只能看到某个范围的数据 xff08 数据行 xff09 某个用户只能看到某几列数据 xff08 数据列 xff09 本文以数据行级别的权限控制为范例 xff0c
您必须了解的4种OpenStack Neutron网络类型

如果您托管的OpenStack虚拟实例需要网络连接 xff0c 则必须创建一个网络有多种类型的网络 xff0c 为了做出正确的选择 xff0c 您至少需要了解两个非常重要的网络属性 xff1a router xff1a external
动态链接库*.so的编译与使用- -

动态链接库 so的编译与使用动态库 so在linux 下用c和c 43 43 编程时经常会碰到 xff0c 最近在网站找了几篇文章介绍动态库的编译和链接 xff0c 总算搞懂了这个之前一直不太了解得东东 xff0c 这里做个笔记 xff0
Linux系统VNC配置实践总结

VNC 概述 VNC Virtual Network Computing 是虚拟网络计算机的缩写 VNC 是一款优秀的远程控制工具软件 xff0c 由著名的 AT amp T 的欧洲研究实验室开发的 VNC 是在基于 UNIX 和
linux不需要杀毒软件

linux一般不需要杀毒软件所有在windows下的病毒在linux下都失效 xff0c 即使你下载一堆病毒 xff0c 不论多强的病毒 xff0c 对病毒狂点都没事既然没中毒 xff0c 切换回windows当然也没事 xff0c 但
使用badblocks命令检测、修复硬盘坏道

badblocks是Linux下常用的坏道修复工具当你觉得硬盘上可能有坏道 xff0c 或者是SMART数据显示有坏道的时候 xff0c 都可以用badblocks来检查一下假设我们要检查的硬盘是 dev sdb sudo badblo
python3 如何给装饰器传递参数

引子之前写过一篇文章用来讲解装饰器 https www cnblogs com JiangLe p 9309330 html 那篇文章的定位是入门级的所以也就没有讲过多的高级主题 xff0c 决定在这里讲一下如果为装饰器传递参数目标
VirsualBox 安装Ubuntu上不了网

VirsualBox 安装Ubuntu上不了网 xff0c 可以ping通 xff0c 但是浏览器上不了网可以选择双网卡 xff0c 如下 xff1a 桥接网卡为了是上外网 xff0c NAT为了上内网能够SSH连接囧囧小先生一直是技
martian source packets(ll header)

原文地址 xff1a http blog chinaunix net space php uid 61 346158 amp do 61 blog amp id 61 2131002 martian source packets ll he
java爬虫学习日记2-宽度优先爬虫代码实现

爬虫两种方式宽度优先和带偏好爬虫先复习下上次学了什么 xff1a URL和URI的结构组成根据指定网址爬取网站内容 xff08 get方式和post方式 xff09 上一日记中学到了抓取单个页面内容的方法 xff0c 但实际项目中则需要
x11vnc 安装及使用

x11vnc 安装及使用 TOC CentOS 7 安装 yum install y x11vnc 默认yum源中没有x11vnc的在epel repo里有为x11vnc创建密码 x11vnc storepasswd sudo mv v
导出数据库数据成txt格式

set verify off set colsep 分隔符 set echo off set feedback off set heading off set pagesize 0 set linesize 10000 set numwid
调整Azure中虚拟机数据磁盘大小实践

首先 xff0c 在Azure中关于数据存储的付费规则中规定 xff0c 只要你使用的不是Azure的XIO高级存储提供的I O密集型的高吞吐低延迟的服务 xff0c 那么得益于Azure存储设计中采用的稀疏文件方式存储 xff0c 存储虚
具有云部署工具的OpenStack自动化

在云世界中 xff0c 口头禅是使一切自动化毫不奇怪 xff0c 随着OpenStack扩展范围 xff0c 自动化项目正在其中涌现但是 xff0c 这些项目的种类和数量仍然令人惊讶 xff1a 超过20个 xff01 这是三篇系列文
Docker部署服务时间相差8小时解决方法

b 交代一下产生问题的环境 xff1a ubuntu server 16 tomcat8 docker部署 b 最近用docker部署tomcat服务遇到了个小问题 xff0c 生成订单获取的系统时间与当前北京时间相差了8个小时第一反应是
准备博客搬家了，搬家到CTO博客

每次写完文章 xff0c 选分类的时候 xff0c 越来越没有我要的分类了看来已经不适合码农的地盘了准备搬家 xff01 转载于 https blog 51cto com cijianjushi 1535291
最简单的目标跟踪方法--------模板匹配与相关系数法

前言模板匹配和相关系数法是目标跟踪的经典方法 xff0c 它的优点有很多 xff1a 简单准确 xff0c 适用面广 xff0c 抗噪性好 xff0c 而且计算速度快缺点是不能适应剧烈光照变化和目标剧烈形变所谓模板匹配法 xff0c
HDFS 实验 (一) 原理

原文在此 https hadoop apache org docs r1 2 1 hdfs design html hadoop 两大组件 mapreduce和hdfs 用HDFS的目标避免硬件故障硬件故障是常态 xff0c 而不是例外

HDFS 实验 (一) 原理

HDFS 实验 (一) 原理 的相关文章

随机推荐

热门标签

HDFS 实验 (一) 原理的相关文章