HDFS 实验 (一) 原理

2023-05-16

原文在此

https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html

hadoop 两大组件 mapreduce和hdfs

用HDFS的目标

避免硬件故障

硬件故障是常态,而不是例外。一个HDFS实例可能包括数百或数千个服务器,存储文件系统的部分数据。事实上,有大量的组件,每个组件都有一个非平凡的失效概率意味着HDFS的一些组件总是非功能。因此,故障的快速检测,从自动的恢复是HDFS的一个核心构架目标。

流式数据访问

应用程序运行在HDFS需要流媒体访问他们的数据集。它们不是一般用途的文件系统上运行的通用应用程序。HDFS被设计为批处理,而不是由用户交互使用。重点是高吞吐量的数据访问,而不是低延迟的数据访问。POSIX的一些要求是不是有针对性的HDFS的应用所需要的。在几个关键的领域POSIX语义被交易来增加数据吞吐量。

大数据集

HDFS上运行的应用程序有大量的数据集。HDFS中典型的文件大小百万兆字节字节。因此,HDFS被调谐到支持大文件。它应该为单个集群中的数百个节点提供高聚合数据带宽和规模。它应该在一个实例中支持数以千万计的文件。

一致性模型

HDFS的应用需要写一次读文件的许多访问模型。创建、写入和关闭的文件不需要更改。这种假设简化了数据一致性问题,并允许高吞吐量数据访问。MapReduce应用程序或Web爬虫应用程序非常适合这个模型。有一个计划支持在将来追加对文件的写操作。

移动计算比移动数据便宜

应用程序请求的计算如果在其所运行的数据附近执行,则效率要高得多。当数据集的大小是巨大的时,情况尤其如此。这减少了网络拥塞,提高了系统的总体吞吐量。假设是,将计算迁移到数据位置的位置通常更好,而不是将数据移动到应用程序运行的地方。HDFS提供的接口的应用将更接近数据所在。

跨异构硬件和软件平台的可移植性

HDFS被设计为可以很容易从一个平台移植到另一个。这有利于广泛采用HDFS作为一个大的应用平台的选择。

节点和数据节点

HDFS有主从式架构。一个HDFS集群由一个单一的节点,一个主服务器,管理文件系统的命名空间和调节客户访问文件。此外,有多个数据节点,通常每一个节点的集群,其中管理连接到节点,它们运行在存储。HDFS文件系统命名空间暴露并允许用户将数据存储在文件中。在内部,一个文件被分成一个或多个数据块,这些块存储在一组数据节点。Namenode执行文件系统的命名空间操作如打开,关闭,和重命名文件和目录。这也决定了数据块到数据节点的映射。数据节点负责为读写文件系统的客户端的请求。数据节点执行创建,删除,并从NameNode在指令复制。

原理图

architecture

复制原理

HDFS的设计可靠地存储非常大的文件在机器在一大簇。它将每个文件存储成一组块;除了最后一个块之外,文件中的所有块都是相同的大小。文件的块被复制用于容错。块大小和复制因子可配置为每个文件。应用程序可以指定文件副本的个数。复制因子可以在文件创建时指定,以后可以更改。文件在HDFS写一次,随时都有严格的作家。

对于复制块的所有决定。它定期收到的心跳,从集群中的每个数据节点blockreport。一个心跳的收据表明DataNode运行正常。一个blockreport列出所有在DataNode块。

翻译文,请笑纳。。。。

dfsdatanodes

FS Shell 文件操作

Action

Command

Create a directory named /foodir

bin/hadoop dfs -mkdir /foodir

Remove a directory named /foodir

bin/hadoop dfs -rmr /foodir

View the contents of a file named /foodir/myfile.txt

bin/hadoop dfs -cat /foodir/myfile.txt

FS shell is targeted for applications that need a scripting language to interact with the stored data.

DFSAdmin

The DFSAdmin command set is used for administering an HDFS cluster. These are commands that are used only by an HDFS administrator. Here are some sample action/command pairs:

Action

Command

Put the cluster in Safemode

bin/hadoop dfsadmin -safemode enter

Generate a list of DataNodes

bin/hadoop dfsadmin -report

Recommission or decommission DataNode(s)

bin/hadoop dfsadmin -refreshNodes

api的链接如下,可以用c或者java

http://hadoop.apache.org/docs/current/api/

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

HDFS 实验 (一) 原理 的相关文章

随机推荐

  • 云服务器装操作系统吗,云服务器能装操作系统吗

    云服务器能装操作系统吗 内容精选 换一换 监控是保持云耀云服务器可靠性 可用性和性能的重要部分 xff0c 通过监控 xff0c 用户可以观察云耀云服务器资源 为使用户更好地掌握自己的云耀云服务器运行状态 xff0c 公有云平台提供了云监控
  • 打造性能服务器图片,详解用node-images打造简易图片服务器.pdf

    详详解解用用node images 打打造造简简易易图图片片服服务务器器 Edit 2016 5 11 修正了代码里面一些明显的错误 xff0c 并发布在 aj axj s 之中 xff0c 源码在这里 Edit 2016 5 24 加入
  • 企业应用:浅谈 “数据权限” 和 查询 API 设计

    背景 多数企业应用都需要对数据权限进行控制 xff0c 如 xff1a 某个用户只能看到某个范围的数据 xff08 数据行 xff09 某个用户只能看到某几列数据 xff08 数据列 xff09 本文以数据行级别的权限控制为范例 xff0c
  • 您必须了解的4种OpenStack Neutron网络类型

    如果您托管的OpenStack虚拟实例需要网络连接 xff0c 则必须创建一个网络 有多种类型的网络 xff0c 为了做出正确的选择 xff0c 您至少需要了解两个非常重要的网络属性 xff1a router xff1a external
  • 动态链接库*.so的编译与使用- -

    动态链接库 so的编译与使用 动态库 so在linux 下用c和c 43 43 编程时经常会碰到 xff0c 最近在网站找了几篇文章介绍动态库的编译和链接 xff0c 总算搞懂了这个之前一直不太了解得东东 xff0c 这里做个笔记 xff0
  • Linux系统VNC配置实践总结

    VNC 概述 VNC Virtual Network Computing 是 虚拟网络 计算机 的缩写 VNC 是一款优秀的 远程控制 工具软件 xff0c 由著名的 AT amp T 的欧洲研究实验室开发的 VNC 是在基于 UNIX 和
  • linux不需要杀毒软件

    linux一般不需要杀毒软件 所有在windows下的病毒在linux下都失效 xff0c 即使你下载一堆病毒 xff0c 不论多强的病毒 xff0c 对病毒狂点都没事 既然没中毒 xff0c 切换回windows当然也没事 xff0c 但
  • 使用badblocks命令检测、修复硬盘坏道

    badblocks是Linux下常用的坏道修复工具 当你觉得硬盘上可能有坏道 xff0c 或者是SMART数据显示有坏道的时候 xff0c 都可以用badblocks来检查一下 假设我们要检查的硬盘是 dev sdb sudo badblo
  • python3 如何给装饰器传递参数

    引子 之前写过一篇文章用来讲解装饰器 https www cnblogs com JiangLe p 9309330 html 那篇文章的定位是入门级的 所以也就没有讲过多的高级主题 xff0c 决定在这里讲一下如果为装饰器传递参数 目标
  • VirsualBox 安装Ubuntu上不了网

    VirsualBox 安装Ubuntu上不了网 xff0c 可以ping通 xff0c 但是浏览器上不了网 可以选择双网卡 xff0c 如下 xff1a 桥接网卡为了是上外网 xff0c NAT为了上内网 能够SSH连接 囧囧小先生一直是技
  • martian source packets(ll header)

    原文地址 xff1a http blog chinaunix net space php uid 61 346158 amp do 61 blog amp id 61 2131002 martian source packets ll he
  • java爬虫学习日记2-宽度优先爬虫代码实现

    爬虫两种方式 宽度优先和带偏好爬虫 先复习下上次学了什么 xff1a URL和URI的结构组成根据指定网址爬取网站内容 xff08 get方式和post方式 xff09 上一日记中学到了抓取单个页面内容的方法 xff0c 但实际项目中则需要
  • x11vnc 安装及使用

    x11vnc 安装及使用 TOC CentOS 7 安装 yum install y x11vnc 默认yum源中没有x11vnc的 在epel repo里有 为x11vnc创建密码 x11vnc storepasswd sudo mv v
  • 导出数据库数据成txt格式

    set verify off set colsep 分隔符 set echo off set feedback off set heading off set pagesize 0 set linesize 10000 set numwid
  • 调整Azure中虚拟机数据磁盘大小实践

    首先 xff0c 在Azure中关于数据存储的付费规则中规定 xff0c 只要你使用的不是Azure的XIO高级存储提供的I O密集型的高吞吐低延迟的服务 xff0c 那么得益于Azure存储设计中采用的稀疏文件方式存储 xff0c 存储虚
  • 具有云部署工具的OpenStack自动化

    在云世界中 xff0c 口头禅是 使一切自动化 毫不奇怪 xff0c 随着OpenStack扩展范围 xff0c 自动化项目正在其中涌现 但是 xff0c 这些项目的种类和数量仍然令人惊讶 xff1a 超过20个 xff01 这是三篇系列文
  • Docker部署服务时间相差8小时解决方法

    b 交代一下产生问题的环境 xff1a ubuntu server 16 tomcat8 docker部署 b 最近用docker部署tomcat服务遇到了个小问题 xff0c 生成订单获取的系统时间与当前北京时间相差了8个小时 第一反应是
  • 准备博客搬家了,搬家到CTO博客

    每次写完文章 xff0c 选分类的时候 xff0c 越来越没有我要的分类了 看来已经不适合码农的地盘了 准备搬家 xff01 转载于 https blog 51cto com cijianjushi 1535291
  • 最简单的目标跟踪方法--------模板匹配与相关系数法

    前言 模板匹配和相关系数法是目标跟踪的经典方法 xff0c 它的优点有很多 xff1a 简单准确 xff0c 适用面广 xff0c 抗噪性好 xff0c 而且计算速度快 缺点是不能适应剧烈光照变化和目标剧烈形变 所谓模板匹配法 xff0c
  • HDFS 实验 (一) 原理

    原文在此 https hadoop apache org docs r1 2 1 hdfs design html hadoop 两大组件 mapreduce和hdfs 用HDFS的目标 避免硬件故障 硬件故障是常态 xff0c 而不是例外