1. HBase 介绍
2. 面向列数据库
2.1 HBase 与 传统关系数据库的区别
|
HBase |
关系型数据库 |
数据库大小 |
PB级别 |
GB TB |
数据类型 |
Bytes |
丰富的数据类型 |
事务支持 |
ACID只支持单个Row级别 |
全面的ACID支持, 对Row和表 |
索引 |
只支持Row-key |
支持 |
吞吐量 |
百万写入/秒 |
数千写入/秒 |
ID |
FILE NAME |
FILE PATH |
FILE TYPE |
FILE SIZE |
CREATOR |
1 |
file1.txt |
/home |
txt |
1024 |
tom |
2 |
file2.txt |
/home/pics |
jpg |
5032 |
jerry |
RowKey |
FILE INFO |
SAVE INFO |
1 |
file_info:name:file1.txt file_info:type:txt file_info:size:1024 |
path:/home/pics creator:Jerry |
2 |
file_info:name:file2.jpg file_info:type:jpg file_info:size:5032 |
path:/home creator:Tom |
2.2 Hive 和 Hbase区别
- hive hbase 共同点
- hive 和 hbase不同
- hbase计算不是通过mapreduce实现的 自己实现的CRUD(增删改查)功能
- hive 通过mapreduce实现 数据查询的
- hbase 可以有集群 集群的管理是通过zookeeper实现
- hive 只能做离线计算
- hbase 提供对数据的随机实时读/写访问功能
- HBase 对事务的支持 只支持行级别的事务
-
CAP定理
- C consistency 一致性 所有节点在同一时间具有相同的数据
- A availability 可用性 保证每个请求不管成功或失败都有响应,但不保证获取的数据的正确性
- P partition tolerance 分区容错性 系统中任意信息的丢失或失败不会影响系统的运行,
-
分区容错性 分布式系统都要有的特性,任何时候都要能提供服务 P保证
- HBase CP系统 强一致性
2.3 Hbase 和 传统关系型数据库区别
3. Hbase 数据模型
-
NameSpace 对应 关系型数据库 database
- 表(table):用于存储管理数据,具有稀疏的、面向列的特点。
- 行 (row): 每一行都对应一个row key 行键 Hbase有索引但是只是在行键 rowkey有索引
- 列 Column family 和 Column qualifier 组成
-
列族(Column Family)保存的就是 键值对集合 key:value
-
列修饰符(Column Qualifier) 就是key 对应关系型数据库的列
- 时间戳(TimeStamp):是列的一个属性
- 区域(Region):HBase自动把表水平划分成的多个区域,划分的区域随着数据的增大而增多。
- Hbase支持对行级别的 操作保证完全的 ACID
- A 原子性 整个事务中的所有操作,要么全部完成,要么全部不完成
- C 一致性 事物必须始终保持系统处于一致的状态,不管在任何给定的时间并发事务有多少
- I 隔离性 串行化或者序列化 隔离状态执行事务
- D 持久性 事务完成后,事务对数据库所做的更改持久保存在数据库中,不会回滚
4. HBase 基础架构
5. HBase的安装
6. HBase shell
名称 |
命令表达式 |
创建表 |
create ‘表名’, ‘列族名1’,‘列族名2’,‘列族名n’ |
添加记录 |
put ‘表名’,‘行名’,‘列名:’,'值 |
查看记录 |
get ‘表名’,‘行名’ |
查看表中的记录总数 |
count ‘表名’ |
删除记录 |
delete ‘表名’, ‘行名’,‘列名’ |
删除一张表 |
第一步 disable ‘表名’ 第二步 drop ‘表名’ |
查看所有记录 |
scan “表名称” |
查看指定表指定列所有数据 |
scan ‘表名’ ,{COLUMNS=>‘列族名:列名’} |
更新记录 |
重写覆盖 |
create 'user','base_info'
disable 'user'
drop 'user'
create_namespace 'test'
list_namespace
create 'test:user','base_info'
list_namespace_tables 'test'
put 'user','rowkey_10','base_info:username','Tom'
put 'user','rowkey_10','base_info:birthday','2014-07-10'
put 'user','rowkey_10','base_info:sex','1'
put 'user','rowkey_10','base_info:address','Tokyo'
put 'user','rowkey_16','base_info:username','Mike'
put 'user','rowkey_16','base_info:birthday','2014-07-10'
put 'user','rowkey_16','base_info:sex','1'
put 'user','rowkey_16','base_info:address','beijing'
scan 'user'
get 'user','rowkey_16'
get 'user','rowkey_16','base_info'
get 'user','rowkey_16','base_info:username'
get 'user', 'rowkey_16', {COLUMN => ['base_info:username','base_info:sex']}
delete 'user', 'rowkey_16', 'base_info:username'
truncate 'user'
alter 'user', NAME => 'f2'
alter 'user', 'delete' => 'f2'
desc 'user'
Table user is ENABLED
user
COLUMN FAMILIES DESCRIPTION
{NAME => 'base_info', VERSIONS => '1', EVICT_BLOCKS_ON_CLOSE => 'false', NEW_VERSION_B
HE_DATA_ON_WRITE => 'false', DATA_BLOCK_ENCODING => 'NONE', TTL => 'FOREVER', MI
ER => 'NONE', CACHE_INDEX_ON_WRITE => 'false', IN_MEMORY => 'false', CACHE_BLOOM
se', COMPRESSION => 'NONE', BLOCKCACHE => 'false', BLOCKSIZE => '65536'}
- VERSIONS=>'1’说明最多可以显示一个版本 修改数据
put 'user','rowkey_10','base_info:username','Tom'
get 'user','rowkey_10',{COLUMN=>'base_info:username',VERSIONS=>2}
alter 'user',NAME=>'base_info',VERSIONS=>10
可以通过HbaseUi界面查看表的信息
端口60010打不开的情况,是因为hbase 1.0 以后的版本,需要自己手动配置,在文件 hbase-site
<property>
<name>hbase.master.info.port</name>
<value>60010</value>
</property>
7. HappyBase操作HBase
import happybase
hostname = '192.168.19.188'
table_name = 'users'
column_family = 'cf'
row_key = 'row_1'
conn = happybase.Connection(hostname)
def show_tables():
print('show all tables now')
tables = conn.tables()
for t in tables:
print t
def create_table(table_name, column_family):
print('create table %s' % table_name)
conn.create_table(table_name, {column_family:dict()})
def show_rows(table, row_keys=None):
if row_keys:
print('show value of row named %s' % row_keys)
if len(row_keys) == 1:
print table.row(row_keys[0])
else:
print table.rows(row_keys)
else:
print('show all row values of table named %s' % table.name)
for key, value in table.scan():
print key, value
def put_row(table, column_family, row_key, value):
print('insert one row to hbase')
# column_family:qualifier:value
# column_qualifier = name
table.put(row_key, {'%s:name' % column_family:'name_%s' % value})
def put_rows(table, column_family, row_lines=30):
print('insert rows to hbase now')
for i in range(row_lines):
put_row(table, column_family, 'row_%s' % i, i)
def delete_row(table, row_key, column_family=None, keys=None):
if keys:
print('delete keys:%s from row_key:%s' % (keys, row_key))
key_list = ['%s:%s' % (column_family, key) for key in keys]
table.delete(row_key, key_list)
else:
print('delete row(column_family:) from hbase')
table.delete(row_key)
def delete_table(table_name):
pretty_print('delete table %s now.' % table_name)
conn.delete_table(table_name, True)
def main():
table = conn.table(table_name)
show_rows(table)
put_rows(table, column_family)
show_rows(table)
# 更新操作
# put_row(table, column_family, row_key, 'xiaoh.me')
# show_rows(table, [row_key])
# 删除数据
# delete_row(table, row_key)
# show_rows(table, [row_key])
# delete_row(table, row_key, column_family, ['name'])
# show_rows(table, [row_key])
# delete_table(table_name)
if __name__ == "__main__":
main()
- 建立连接 conn = happybase.Connection(hostname)
- 创建表 conn.create_table(table_name,{column_family,dict()})
- 查看所有表 table_list = conn.tables()
- 连接表 table = conn.table(table_name)
- 查看表中数据 table.row(column_qualifier) table.rows(column_qualifiers)
- 遍历表中数据 for key,value in table.scan(): print key,value
- 插入数据 table.put(row_key,{’’%s:%s:%s’ %column_family,%column_qualifier,%value})
- 删除表中数据 table.delete(row_key,column_qualifier)
- 删除表 conn.delete_table(table_name)
8. HBase表设计
9. HBase表设计案例:社交应用互粉信息表
-
设计表保存应用中用户互粉的信息
- 读场景:
- 某用户都关注了哪些用户
- 用户A有没有关注用户B
- 谁关注了用户A
- 写场景
-
设计
- 列名 user_id
-
最终设计(DDI)
- 解决谁关注了用户A问题
- ① 设计一张新表, 里面保存某个用户和他的粉丝
- ② 在同一张表中同时记录粉丝列表的和用户关注的列表, 并通过Rowkey来区分
- 01_userid: 用户关注列表
- 02_userid: 粉丝列表
- 上两种设计方案的问题(事务)
-
案例总结
- Rowkey是HBase表结构设计中很重要的环节, 直接影响到HBase的效率和性能
- HBase的表结构比传统关系型数据库更灵活, 能存储任何二进制数据,无需考虑数据类型
- 利用列标识(Column Qualifier)来存储数据
- 衡量设计好坏的简单标准 是否会全表查询