HBase介绍（列存储）

2023-11-11

HBase介绍（列存储）

2013-11-26 23:25 5871人阅读评论(2) 收藏举报

分类：

云存储（2）

　　Hbase简介

　　started by chad walters and jim

　　2006.11 G release paper on BigTable

　　2007.2 inital Hbase prototype created as Hadoop contrib

　　2007.10 First useable Hbase

　　2008.1 Hadoop become Apache top-level project and Hbase becomes subproject

　　2008.10 Hbase 0.18,0.19 released

　　Hbase是bigtable的开源山寨版本。是建立的hdfs之上，提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。

　　它介于nosql和RDBMS之间，仅能通过主键(row key)和主键的range来检索数据，仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储非结构化和半结构化的松散数据。

　　与hadoop一样，Hbase目标主要依靠横向扩展，通过不断增加廉价的商用服务器，来增加计算和存储能力。

　　Hbase中的表一般有这样的特点：

　　1 大：一个表可以有上亿行，上百万列

　　2 面向列:面向列(族)的存储和权限控制，列(族)独立检索。

　　3 稀疏:对于为空(null)的列，并不占用存储空间，因此，表可以设计的非常稀疏。

　　下面一幅图是Hbase在Hadoop Ecosystem中的位置。

　　二、逻辑视图

　　Hbase以表的形式存储数据。表有行和列组成。列划分为若干个列族(row family)

Row Key

　　与nosql数据库们一样,row key是用来检索记录的主键。访问Hbase table中的行，只有三种方式：

　　1 通过单个row key访问

　　2 通过row key的range

　　3 全表扫描

　　Row key行键 (Row key)可以是任意字符串(最大长度是 64KB，实际应用中长度一般为 10-100bytes)，在Hbase内部，row key保存为字节数组。

　　存储时，数据按照Row key的字典序(byte order)排序存储。设计key时，要充分排序存储这个特性，将经常一起读取的行存储放到一起。(位置相关性)

　　注意：

　　字典序对int排序的结果是1,10,100,11,12,13,14,15,16,17,18,19,2,20,21,…,9,91,92,93,94,95,96,97,98,99。要保持整形的自然序，行键必须用0作左填充。

　　行的一次读写是原子操作 (不论一次读写多少列)。这个设计决策能够使用户很容易的理解程序在对同一个行进行并发更新操作时的行为。

　　列族

　　Hbase表中的每个列，都归属与某个列族。列族是表的chema的一部分(而列不是)，必须在使用表之前定义。列名都以列族作为前缀。例如courses:history，courses:math

　　都属于courses 这个列族。

　　访问控制、磁盘和内存的使用统计都是在列族层面进行的。实际应用中，列族上的控制权限能帮助我们管理不同类型的应用：我们允许一些应用可以添加新的基本数据、一些应用可以读取基本数据并创建继承的列族、一些应用则只允许浏览数据(甚至可能因为隐私的原因不能浏览所有数据)。

　　时间戳

　　Hbase中通过row和columns确定的为一个存贮单元称为cell。每个 cell都保存着同一份数据的多个版本。版本通过时间戳来索引。时间戳的类型是 64位整型。时间戳可以由Hbase(在数据写入时自动 )赋值，此时时间戳是精确到毫秒的当前系统时间。时间戳也可以由客户显式赋值。如果应用程序要避免数据版本冲突，就必须自己生成具有唯一性的时间戳。每个 cell中，不同版本的数据按照时间倒序排序，即最新的数据排在最前面。

　　为了避免数据存在过多版本造成的的管理 (包括存贮和索引)负担，Hbase提供了两种数据版本回收方式。一是保存数据的最后n个版本，二是保存最近一段时间内的版本(比如最近七天)。用户可以针对每个列族进行设置。

　　Cell

　　由{row key, column(= + ), version} 唯一确定的单元。cell中的数据是没有类型的，全部是字节码形式存贮。

　　三、物理存储

　　1 已经提到过，Table中的所有行都按照row key的字典序排列。

　　2 Table 在行的方向上分割为多个Hregion。

　　3 region按大小分割的，每个表一开始只有一个region，随着数据不断插入表，region不断增大，当增大到一个阀值的时候，Hregion就会等分会两个新的Hregion。当table中的行不断增多，就会有越来越多的Hregion。

　　4 HRegion是Hbase中分布式存储和负载均衡的最小单元。最小单元就表示不同的Hregion可以分布在不同的HRegion server上。但一个Hregion是不会拆分到多个server上的。

　　5 HRegion虽然是分布式存储的最小单元，但并不是存储的最小单元。

　　事实上，HRegion由一个或者多个Store组成，每个store保存一个columns family。

　　每个Strore又由一个memStore和0至多个StoreFile组成。如图：

　　StoreFile以HFile格式保存在HDFS上。

HFile的格式为：

　　HFile分为六个部分：

　　Data Block 段–保存表中的数据，这部分可以被压缩

　　Meta Block 段 (可选的)–保存用户自定义的kv对，可以被压缩。

　　File Info 段–Hfile的元信息，不被压缩，用户也可以在这一部分添加自己的元信息。

　　Data Block Index 段–Data Block的索引。每条索引的key是被索引的block的第一条记录的key。

　　Meta Block Index段 (可选的)–Meta Block的索引。

　　Trailer–这一段是定长的。保存了每一段的偏移量，读取一个HFile时，会首先读取Trailer，Trailer保存了每个段的起始位置(段的Magic Number用来做安全check)，然后，DataBlock Index会被读取到内存中，这样，当检索某个key时，不需要扫描整个HFile，而只需从内存中找到key所在的block，通过一次磁盘io将整个block读取到内存中，再找到需要的key。DataBlock Index采用LRU机制淘汰。

　　HFile的Data Block，Meta Block通常采用压缩方式存储，压缩之后可以大大减少网络IO和磁盘IO，随之而来的开销当然是需要花费cpu进行压缩和解压缩。

　　目标Hfile的压缩支持两种方式：Gzip，Lzo。

　　HLog(WAL log)

　　WAL 意为Write ahead log(http://en.wikipedia.org/wiki/Write-ahead_logging)，类似mysql中的binlog,用来做灾难恢复只用，Hlog记录数据的所有变更,一旦数据修改，就可以从log中进行恢复。

　　每个Region Server维护一个Hlog,而不是每个Region一个。这样不同region(来自不同table)的日志会混在一起，这样做的目的是不断追加单个文件相对于同时写多个文件而言，可以减少磁盘寻址次数，因此可以提高对table的写性能。带来的麻烦是，如果一台region server下线，为了恢复其上的region，需要将region server上的log进行拆分，然后分发到其它region server上进行恢复。

　　HLog文件就是一个普通的Hadoop Sequence File，Sequence File 的Key是HLogKey对象，HLogKey中记录了写入数据的归属信息，除了table和region名字外，同时还包括 sequence number和timestamp，timestamp是”写入时间”，sequence number的起始值为0，或者是最近一次存入文件系统中sequence number。HLog Sequece File的Value是Hbase的KeyValue对象，即对应HFile中的KeyValue，可参见上文描述。

　　四、系统架构

　　Client

　　1 包含访问Hbase的接口，client维护着一些cache来加快对Hbase的访问，比如regione的位置信息。

　　Zookeeper

　　1 保证任何时候，集群中只有一个master

　　2 存贮所有Region的寻址入口。

　　3 实时监控Region Server的状态，将Region server的上线和下线信息实时通知给Master

　　4 存储Hbase的schema,包括有哪些table，每个table有哪些column family

　　Master

　　1 为Region server分配region

　　2 负责region server的负载均衡

　　3 发现失效的region server并重新分配其上的region

　　4 GFS上的垃圾文件回收

　　5 处理schema更新请求

　　Region Server

　　1 Region server维护Master分配给它的region，处理对这些region的IO请求

　　2 Region server负责切分在运行过程中变得过大的region

　　可以看到，client访问Hbase上数据的过程并不需要master参与(寻址访问zookeeper和region server，数据读写访问regione server)，master仅仅维护者table和region的元数据信息，负载很低。

　　五、关键算法/流程

　　region定位

　　系统如何找到某个row key (或者某个 row key range)所在的region

　　bigtable 使用三层类似B+树的结构来保存region位置。

　　第一层是保存zookeeper里面的文件，它持有root region的位置。

　　第二层root region是.META.表的第一个region其中保存了.META.z表其它region的位置。通过root region，我们就可以访问.META.表的数据。

　　.META.是第三层，它是一个特殊的表，保存了Hbase中所有数据表的region 位置信息。

　　说明：

　　1 root region永远不会被split，保证了最需要三次跳转，就能定位到任意region 。

　　2.META.表每行保存一个region的位置信息，row key 采用表名+表的最后一样编码而成。

　　3 为了加快访问，.META.表的全部region都保存在内存中。

　　假设，.META.表的一行在内存中大约占用1KB。并且每个region限制为128MB。

　　那么上面的三层结构可以保存的region数目为：

　　(128MB/1KB) * (128MB/1KB) = = 2(34)个region

　　4 client会将查询过的位置信息保存缓存起来，缓存不会主动失效，因此如果client上的缓存全部失效，则需要进行6次网络来回，才能定位到正确的region(其中三次用来发现缓存失效，另外三次用来获取位置信息)。

　　读写过程

　　上文提到，Hbase使用MemStore和StoreFile存储对表的更新。

　　数据在更新时首先写入Log(WAL log)和内存(MemStore)中，MemStore中的数据是排序的，当MemStore累计到一定阈值时，就会创建一个新的MemStore，并且将老的MemStore添加到flush队列，由单独的线程flush到磁盘上，成为一个StoreFile。于此同时，系统会在zookeeper中记录一个redo point，表示这个时刻之前的变更已经持久化了。(minor compact)

　　当系统出现意外时，可能导致内存(MemStore)中的数据丢失，此时使用Log(WAL log)来恢复checkpoint之后的数据。

　　前面提到过StoreFile是只读的，一旦创建后就不可以再修改。因此Hbase的更新其实是不断追加的操作。当一个Store中的StoreFile达到一定的阈值后，就会进行一次合并(major compact),将对同一个key的修改合并到一起，形成一个大的StoreFile，当StoreFile的大小达到一定阈值后，又会对StoreFile进行split，等分为两个StoreFile。

　　由于对表的更新是不断追加的，处理读请求时，需要访问Store中全部的StoreFile和MemStore，将他们的按照row key进行合并，由于StoreFile和MemStore都是经过排序的，并且StoreFile带有内存中索引，合并的过程还是比较快。

　　写请求处理过程

1 client向region server提交写请求

　　2 region server找到目标region

　　3 region检查数据是否与schema一致

　　4 如果客户端没有指定版本，则获取当前系统时间作为数据版本

　　5 将更新写入WAL log

　　6 将更新写入Memstore

　　7 判断Memstore的是否需要flush为Store文件。

　　region分配

　　任何时刻，一个region只能分配给一个region server。master记录了当前有哪些可用的region server。以及当前哪些region分配给了哪些region server，哪些region还没有分配。当存在未分配的region，并且有一个region server上有可用空间时，master就给这个region server发送一个装载请求，把region分配给这个region server。region server得到请求后，就开始对此region提供服务。

　　region server上线

　　master使用zookeeper来跟踪region server状态。当某个region server启动时，会首先在zookeeper上的server目录下建立代表自己的文件，并获得该文件的独占锁。由于master订阅了server目录上的变更消息，当server目录下的文件出现新增或删除操作时，master可以得到来自zookeeper的实时通知。因此一旦region server上线，master能马上得到消息。

　　region server下线

　　当region server下线时，它和zookeeper的会话断开，zookeeper而自动释放代表这台server的文件上的独占锁。而master不断轮询server目录下文件的锁状态。如果master发现某个region server丢失了它自己的独占锁，(或者master连续几次和region server通信都无法成功),master就是尝试去获取代表这个region server的读写锁，一旦获取成功，就可以确定：

　　1 region server和zookeeper之间的网络断开了。

　　2 region server挂了。

　　的其中一种情况发生了，无论哪种情况，region server都无法继续为它的region提供服务了，此时master会删除server目录下代表这台region server的文件，并将这台region server的region分配给其它还活着的同志。

　　如果网络短暂出现问题导致region server丢失了它的锁，那么region server重新连接到zookeeper之后，只要代表它的文件还在，它就会不断尝试获取这个文件上的锁，一旦获取到了，就可以继续提供服务。

　　master上线

　　master启动进行以下步骤:

　　1 从zookeeper上获取唯一一个代码master的锁，用来阻止其它master成为master。

　　2 扫描zookeeper上的server目录，获得当前可用的region server列表。

　　3 和2中的每个region server通信，获得当前已分配的region和region server的对应关系。

　　4 扫描.META.region的集合，计算得到当前还未分配的region，将他们放入待分配region列表。

　　master下线

　　由于master只维护表和region的元数据，而不参与表数据IO的过程，master下线仅导致所有元数据的修改被冻结(无法创建删除表，无法修改表的schema，无法进行region的负载均衡，无法处理region上下线，无法进行region的合并，唯一例外的是region的split可以正常进行，因为只有region server参与)，表的数据读写还可以正常进行。因此master下线短时间内对整个Hbase集群没有影响。从上线过程可以看到，master保存的信息全是可以冗余信息(都可以从系统其它地方收集到或者计算出来)，因此，一般Hbase集群中总是有一个master在提供服务，还有一个以上的"master"在等待时机抢占它的位置。

转自：http://tech.hexun.com/2011-10-17/134285153.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

云数据库

HBase介绍（列存储）的相关文章

云数据库MySQL的选择

架构介绍 xff1a 云数据库MySQL支持四种架构 xff1a 高可用版金融版单节点高IO版基础版其中单节点高IO版的只用于只读版本对比 xff1a 企业级别 xff0c 刚刚好公司没有自己的服务器机房的时候可以做对比选择一般
淘宝TDDL数据库分库分表

淘宝TDDL数据库分库分表 2014 06 04 23 18 3334人阅读评论 0 收藏举报分类数据库 1 分库分表而且分库规则非常灵活 2 主键生成策略目前TDDL提供的id生成主要还是依托数据库来进行的 oracle可以直
Hadoop Core、HBase 、ZooKeeper

adoop HBase ZooKeeper三者关系与安装配置复制链接 qqjue 论坛徽章 18 电梯直达 1
Hypertable 快速安装，仅需上载一个RPM包，零编译

Hypertable 快速安装仅需上载一个RPM包零编译 Hypertable 快速安装仅需下载一个RPM包零编译本文采用单机安装 1 Hypertable 安装 Hypertable 的几种安装方式单机安装于单机采用本地
Hadoop 2.4.0+zookeeper3.4.6+hbase0.98.3分布式集群搭建

Hadoop 2 4 0 zookeeper3 4 6 hbase0 98 3分布式集群搭建博客分类 hadoop Ip 主机名程序进程 192 168 137 11 h1 Jdk Hadoop hbase Namenode DFSZ
分布式系统一致性研究,paxos算法

感谢eric的敦促感谢shuai的感召我尝试记录一点混乱的思考什么是分布式系统毋庸置疑 Internet和DNS是两个典型的成功的分布式系统那么分布式系统是不是就是计算机网络 1990年 Sun Microsystems 公司提
阿里云数据库配置IP白名单操作方法（以MySQL为例）

阿里云数据库RDS创建成功后首次连接访问RDS需要配置IP白名单在阿里云RDS控制台即可配置IP白名单阿里云百科来详细说下阿里云服务器RDS配置白名单的方法阿里云服务器配置IP白名单阿里云百科以MySQL云数据库为例 RDS My
Hbase split的三种方式和split的过程

Hbase split的三种方式和split的过程在Hbase中split是一个很重要的功能 Hbase是通过把数据分配到一定数量的region来达到负载均衡的一个table会被分配到一个或多个region中这些region会被分配到
分布式系统设计的求生之路

作者作者 Simon 腾讯后台开发高级工程师链接 http wetest qq com lab view id 105 著作权归作者所有商业转载请联系WeTest获得授权非商业转载请注明出处分布式系统理念渐渐成为了后台架构技术的重
分布式数据库资料

Hadoop是很多组件的集合主要包括但不限于MapReduce HDFS HBase ZooKeeper MapReduce模仿了Google MapReduce HDFS模仿了Google File System HBase模仿了Goo
Hash算法的使用

Hash算法的使用标签默认分类发表时间 2011 08 06 06 35 作者 GliderX khsing 分享到出处 http hi baidu com gliderx 在对语料文本进行2 3元切分时需要借助hash表来获得切
分布式查找过程[HBase]Region location

HBase的table是该region切分的 client操作一个row的时候如何知道这个row对应的region是在哪台Region server上呢这里有个region location过程主要涉及到2张系统表 ROOT META
一、MapReduce已死，Spark称霸

一 MapReduce已死 Spark称霸 2014 09 17 11 20 王家林 Spark亚太研究院字号 T T 综合评级想读 35 在读 13 已读 2 品书斋鉴 0 已有50人发表书评 Spark亚太研究院系列丛书 Spark
HBase介绍（列存储）

HBase介绍列存储 2013 11 26 23 25 5871人阅读评论 2 收藏举报分类云存储 2 Hbase简介 started by chad walters and jim 2006 11 G release paper
Hypertable 简介一个 C++ 的Bigtable开源实现

1 Introduction 随着互联网技术的发展尤其是云计算平台的出现分布式应用程序需要处理大量的数据 PB级在一个或多个云计算平台中成千上万的计算主机如何保证数据的有效存储和组织为应用提供高效和可靠的访问接口并且保持良好的
分布式数据库需要考虑的(BigTable VS Dynamo)

分布式数据库需要考虑的 BigTable VS Dynamo 在设计评价分布式数据库的时候需要考虑一些最基本的特性我想这些特性可能包括 1 存储系统一种是类似BigTable将存储交给GFS去做 GFS会保证写入数据的完整另外一种是
hadoop初级到资深

hadoop初级到资深 2015 06 13 12 08 165人阅读评论 0 收藏举报分类 hadoop 3 1 hadoop是什么适合大数据的分布式存储与计算平台 2 hadoop版本有哪些 Apache 官方版本 1 1 2
1.1.3　Hadoop生态系统

1 1 3 Hadoop生态系统 2013 05 08 09 38 16 我来说两句收藏我要投稿本文所属图书 gt Hadoop技术内幕深入解析Hadoop Common和HDFS架构设计与实现原理 Hadoop技术内幕共两册分别
云数据库知识学习——概述

一云计算是云数据库兴起的基础云计算是分布式计算并行计算效用计算网络存储虚拟化负载均衡等计算机和网络技术发展融合的产物云计算是由一系列可以动态升级和被虚拟化的资源组成的用户无需掌握云计算的技术只要通过网络就可以访问这些资源
hadoop使用（五）

博客园闪存首页新随笔联系管理订阅随笔 247 文章 122 评论 571 hadoop使用五第1章引言 1 1 编写目的对关于hadoop的文档及资料进行进一步的整理 1 2 相关网站毋庸置疑 http hadoop

随机推荐

Java线程（从基本概念到线程安全，超详细加大量代码实现）

线程线程基本概念一个线程是一个程序内部的顺序控制流线程和进程每个进程都有独立的代码和数据空间进程上下文进程切换的开销大线程轻量的线程同一类线程共享和数据空间每个线程有独立的运行栈和程序计数器 PC 线程切换的开销小多进
计算机视觉（三）：神经网络最优化过程

计算机视觉笔记总目录 1 最优化 Optimization 定义最优化是寻找能使得损失函数值最小化的参数 W W W的过程注给的是损失优化问题的一个简单定义并不是完整的最优化数学定义方法问题陈述这节的核心问题是给定函数 f
Search in rotated sorted Array

算法框架和普通折半查找一样主要变量就是begin end mid 考虑的区间也一样都是 begin mid mid mid end 这三种情况只是判断条件的部分不同 1 若target A mid 返回mid 2 之后只有两种情况 t
跨时钟域传输数据——单bit和多bit信号（总结）

文章目录前言一慢时钟域到快时钟域 1 单bit信号 2 多bit信号二快时钟域到慢时钟域 1 单bit信号 2 多bit信号三多bit信号跨时钟域传输 1 多个信号合并 2 多周期路径 Multi cycle Path MCP
MySql的增删改查操作（初学者个人心得）

引言在上周粗略的学习了有关MySql的相关基础内容为了方便自己复习特写下这篇个人心得来记录MySql有关增删改查操作的内容 MySql学习中最重要的一部分启动数据库 DOS命令进入mysql的bin文件夹 net start my
Linux服务器安全 SSH 用户密钥认证登录

一 SSH基本简介 SSH 提供两种安全验证方式 1 基于口令客户端使用账号和口令登录服务器所有传输数据都会被加密但可能存在伪造服务器冒充真正的服务器与客户端进行交互不能避免中间人攻击 2 基于密钥使用一对密钥私钥公钥将公钥
ReentrantLock的使用和原理详解

文章目录一 ReentrantLock 小例子二 ReentrantLock的优点 1 可重入其实synchronized 也是可重入的 2 可中断 3 可限时 3 公平锁一 ReentrantLock 小例子 import jav
1 - 选择排序与冒泡排序

排序算法选择排序选择排序的思路依次遍历数组每次遍历数组的时候记录当前未排序的最小值的索引让最小值的索引和待排序的数组的第一个元素进行交换然后继续重复操作直到所有元素都排序 public class SelectionSort
关于JavaScript中map和reduce的分析

以前看js都是云里雾里的后来学了一些Java感觉稍微能看懂一些恰逢又回头看到了以前关于js在有道云上的一些笔记决定做一个关于map和reduce的分析 map map一般来说针对数组进行操作但是进行了一个很好的封装使得读者可以清晰的
PHP获取二维数组中指定Key的重复Value
C++获取类私有成员指针

获取类首地址根据成员定义顺序去计算想要的私有成员地址 class A private int a float b public A a 1 b 1 public float getB return b void test A a floa
图书管理系统2.0——mysql数据库

目录一简要介绍 1 使用技术 2 简要功能 3 源码二需求文档 1 登录 2 注册 3 用户菜单 3 1 借阅图书 3 1 归还图书 3 2 个人中心 3 2 1 查看所有借阅记录 3 2 2 查看借阅中的图书 3 2 3 签到领积
线程基础篇(十五)之使用ReentrantLock实现消费者生产者

author Dora date 2020 4 8 9 55 public class QueueLearn 使用读写锁实现队列的消费实现一个队列 static ConcurrentLinkedQueue queue new Concu
解决eclipse中出现BASE64Encoder cannot be resolved to a type

在eclipse中在进行文件下载时控制台出现 BASE64Encoder cannot be resolved to a type情况导致文件无法下载针对以上的情况可以试试以下方法第一种然后重新运行一下项目看是否成功如果不可以就
泰勒公式回顾贴

泰勒公式 sinx 和 arcsinx 第二项符号不同 sinx x 1 6 x 3 arcsinx x 1 6 x 3 sinx 和 cosx的区别 sinx的系数是奇数阶乘 1 3 5 cosx的系数是偶数阶乘 2 4 6 tanx 和
服务器主机本地系统开机,本地主机启动tomcat v9.0服务器错误

我试图启动一个tomcat v9 0服务器在本地主机上春天STS但它会弹出以下错误本地主机启动tomcat v9 0服务器错误本地主机起tomcat服务器V9 0遇到了问题没有使用的端口8080 所以这不应该是8080端口没有任何进程
Mac 10.15下安装brew

在Mac下初次使用brew命令会出现 bash brew command not found 随后找了各大博客要在命令行输入如下命令 bin zsh c curl fsSL https gitee com cunkai HomebrewC
历年研究生数学建模优秀论文汇总

全国研究生数学建模竞赛 National Post Graduate Mathematical Contest in Modeling 是全国研究生创新实践系列活动的主题赛事之一一般位于九月中旬历时四天竞赛题目一般来源于工程与管理
卷积神经网络实现人脸表情识别

文章目录一实现过程二运用训练的模型实现表情识别一实现过程 1 1 下载数据集 https github com truongnmt smile detection 1 2 根据猫狗数据集训练的方法来训练笑脸数据集 coding
HBase介绍（列存储）

HBase介绍列存储 2013 11 26 23 25 5871人阅读评论 2 收藏举报分类云存储 2 Hbase简介 started by chad walters and jim 2006 11 G release paper

HBase介绍（列存储）

HBase介绍（列存储） 的相关文章

随机推荐

热门标签

HBase介绍（列存储）的相关文章