HBase RowKey设计和实现

2023-11-02

HBase由于存储特性和读写性能，在OLAP即时分析中发挥重要作用，Rowkey的设计好坏关乎到HBase的使用情况。
我们知道HBase中定位一条数据需要四个维度的限制：RowKey，Column Family，Column Qualifier，Timestamp。RowKey是其中最容易出错的，不仅需要根据业务和查询需求来设计，还有很多地方需要关注。

RowKey是什么？

HBase中RowKey可以唯一标识一行记录，在HBase查询时会有几种形式：

通过get方式，指定RowKey获取唯一一条记录。
通过scan方式，设置startRow和stopRow参数进行范围匹配。
全表扫描，直接扫描整表所有数据。
RowKey字面上来看，就是行键意思，在增删改查中充当主键，它可以使任意字符串，在HBase内部RowKey保存为字节数组。
HBase中的数据是按照RowKey的ASCII字典顺序进行全局排序的，因此在设计RowKey时，要利用排序存储的特性，将经常读取的行存储到一起，避免做全表扫描。

数据热点？

不合理的RowKey设计产生热点问题，热点发生在大量的客户端直接访问集群的一个或极少数个节点（访问可能为读或写or其他操作）。
大量的访问使热点region所在的单个机器超出自身承受能力，引起性能下降甚至导致region不可用，也将影响到同一个RegionServer上的其他region，由于主机无法服务其他region请求，就造成数据热点的现象。
所以在向HBase中插入数据时，应该优化RowKey的设计，使数据被写入集群的多个region中，尽量将记录均衡的分散到不同的region中，平衡每个region的压力。

怎么避免热点问题？

主要的方法有反转，加盐和哈希。

反转

把固定长度或数字格式的RowKey进行反转，反转分为数据反转和时间戳反转，常用时间戳反转。

反转固定格式的数值以手机号为例，手机号的前缀变化比较少（如152、185等），但后半部分变化很多。如果将它反转过来，可以有效地避免热点。不过其缺点就是失去了有序性。
反转时间这个操作严格来讲不算“打散”，但可以调整数据的时间排序。如果将时间按照字典序排列，最近产生的数据会排在旧数据后面。如果用一个大值减去时间（比如用99999999减去yyyyMMdd，或者Long.MAX_VALUE减去时间戳），最新的数据就可以排在前面了。

加盐

在RowKey前添加一些前缀，加盐的前缀种类越多，RowKey被打的越散。
需要注意的是分配的随机前缀的种类数量应该和想把数据分散到那些region的数量一致。这样，加盐后的RowKey才会根据随机生成的前缀分散到各个region中，避免热点现象。

哈希

哈希和加盐的适用场景类似，但前缀不可以是随机的，因为必须要让客户端能完整的重构RowKey，所以一般会拿原RowKey或其一部分计算Hash值，然后再对Hash值做运算作为前缀。

RowKey设计原则

HBase提出的设计原则主要有：长度原则，唯一原则，排序原则和散列原则。

长度原则

RowKey是一个二进制码流，可以是任意字符串，最大长度为64kb，实际应用中一般为10-100bytes，以byte[]形式保存，一般设计成定长，建议越短越好，不要超过十六个字节，原因是：

在 HBase 的底层存储 HFile 中，RowKey 是 KeyValue 结构中的一个域。假设 RowKey 长度 100B，那么 1000 万条数据中，光 RowKey 就占用掉 100*1000w=10亿个字节将近 1G 空间，这样会极大影响 HFile 的存储效率。
HBase 中设计有 MemStore 和 BlockCache，分别对应列族/Store 级别的写入缓存，和 RegionServer 级别的读取缓存。如果 RowKey 字段过长，内存的有效利用率就会降低，系统不能缓存更多的数据，这样会降低检索效率。

此外，目前使用的基于64位的操作系统，内存是按照8B对齐的，所以设计RowKey时一般做成8B的整数倍，如16B或者24B，可以提高寻址效率。
同样，列族、列名的命名在保证可读的情况下也应尽量短。value 永远和它的 key 一起传输的。当具体的值在系统间传输时，它的 RowKey，列名，时间戳也会一起传输（因此实际上列族命名几乎都用一个字母，比如‘c’或‘f’）。如果RowKey和列名和值相比较较大，Hfile中的索引最终占据了HBase分配的大量内存。

唯一原则

由于RowKey用来唯一标识一行记录，所以必须在设计上保证RowKey的唯一性。

由于 HBase 中数据存储的格式是 Key-Value 对格式，所以如果向 HBase 中同一张表插入相同 RowKey 的数据，则原先存在的数据会被新的数据给覆盖掉（和 HashMap 效果相同）。

排序原则

RowKey是按照字典顺序排序存储的，所以设计RowKey时，利用排序特性，将经常读取的数据存储到一起，将最近可能访问的数据放到一起。
一个常见的数据处理问题是快速获取数据的最近版本，使用反转的时间戳作为 RowKey 的一部分对这个问题十分有用，可以用 Long.Max_Value-timestamp追加到key的末尾。
例如 [key][reverse_timestamp] , [key]的最新值可以通过scan [key]获得[key]的第一条记录，因为 HBase 中 RowKey 是有序的，第一条记录是最后录入的数据。

散列原则

散列原则就是设计出来的RowKey需要能均匀的分布到各个RegionServer上。
比如设计RowKey时，当RowKey是按时间戳的方式递增，就不要将时间放在二进制码的前面，可以将RowKey的高位作为散列字段，由程序循环生成，可以在低位放时间字段，这样就可以提高数据均衡分布在每个RegionServer实现负载均衡的几率。

如果没有散列字段，首字段只有时间信息，那就会出现所有新数据都在一个 RegionServer 上堆积的热点现象，这样在做数据检索的时候负载将会集中在个别 RegionServer 上，降低查询效率。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

HBase

Hbase

大数据

Hadoop

HBase RowKey设计和实现的相关文章

HDFS容量：如何阅读“dfsadmin报告”

我使用的是 Hadoop 2 6 0 当我运行 hdfs dfsadmin report 时我得到类似这样的信息简化 Configured Capacity 3 TB Present Capacity 400GB DFS Remaini
当与curl一起使用--negotiate时，是否需要keytab文件？

The 文档 http hadoop apache org docs stable hadoop project dist hadoop hdfs WebHDFS html描述如何连接到 kerberos 安全端点显示以下内容 curl i
java.lang.IllegalArgumentException：错误的 FS：，预期：hdfs://localhost:9000

我正在尝试实现reduce side join 并使用mapfile reader来查找分布式缓存但在stderr中检查时它没有查找值它显示以下错误 lookupfile文件已经存在于hdfs中并且似乎已正确加载进入缓存如标准输出中
使用 python 从 HDFS 获取文件名列表

这里是 Hadoop 菜鸟我搜索了一些有关 hadoop 和 python 入门的教程但没有取得太大成功我还不需要使用映射器和缩减器进行任何工作但这更多是一个访问问题作为Hadoop集群的一部分 HDFS 上有一堆 dat 文件
如何使用新的 Hadoop API 来使用 MultipleTextOutputFormat？

我想编写多个输出文件如何使用 Job 而不是 JobConf 来执行此操作创建基于密钥的输出文件名的简单方法 input data type key value cupertino apple sunnyvale banana cupe
Cat 文件与 HDFS 中的模式不匹配？

我正在尝试 cat 与 hadoop HDFS 中的以下模式不匹配的文件 hdfs dfs cat gz 如何捕获所有不以 gz 结尾的文件编辑抱歉但我需要在 Hadoop 中管理文件显然 hdfs 附带的命令非常少编辑2 所有文
Hadoop：处理大型序列化对象

我正在开发一个应用程序来使用 Hadoop 框架处理和合并几个大型 java 序列化对象顺序 GB 大小 Hadoop 存储将文件块分布在不同的主机上但由于反序列化需要所有块都存在于单个主机上因此它会极大地影响性能我该如何处理这
在 Hive 中分解一行 XML 数据

我们将 XML 数据作为名为 XML 的单个字符串列加载到 Hadoop 中我们正在尝试检索数据级别并将其标准化或分解为单行进行处理你知道就像表格一样已经尝试过分解功能但没有得到我们想要的示例 XML
Spark超时可能是由于HDFS中文件超过100万个的binary Files()

我正在通过以下方式读取数百万个 xml 文件 val xmls sc binaryFiles xmlDir 该操作在本地运行良好但在纱线上失败并显示 client token N A diagnostics Application app
Hive查询快速查找表大小（行数）

是否有 Hive 查询可以快速查找表大小即行数而无需启动耗时的 MapReduce 作业这就是为什么我想避免COUNT I tried DESCRIBE EXTENDED 但这产生了numRows 0这显然是不正确的对新手问题表示歉
Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

我在跑蜂巢2 1 1 Ubuntu 16 04 上的 hadoop 2 7 3 根据Hive on Spark 入门 https cwiki apache org confluence display Hive Hive on Spark
Oozie SSH 操作

Oozie SSH 操作问题 Issue 我们正在尝试在集群的特定主机上运行一些命令我们为此选择了 SSH Action 我们面对这个 SSH 问题已经有一段时间了这里真正的问题可能是什么请指出解决方案 logs AUTH FAILE
将日期字符串转换为“MM/DD/YY”格式

我刚刚看到这个例子我该如何解决这个问题 Hive 元存储包含一个名为 Problem1 的数据库其中包含一个名为 customer 的表 customer 表包含 9000 万条客户记录 90 000 000 每条记录都有一个生日字段
遍历 ArrayWritable - NoSuchMethodException

我刚刚开始使用 MapReduce 并且遇到了一个奇怪的错误我无法通过 Google 回答该错误我正在使用 ArrayWritable 制作一个基本程序但是当我运行它时在Reduce过程中出现以下错误 java lang Runti
猪参考

我正在学习 Hadoop Pig 并且我总是坚持引用元素请查找下面的示例 groupwordcount group chararray words bag of tokenTuples from line token chararray
YARN UNHEALTHY 节点

在我们的 YARN 集群已满 80 的情况下我们看到一些纱线节点管理器被标记为不健康在深入研究日志后我发现这是因为数据目录的磁盘空间已满 90 出现以下错误 2015 02 21 08 33 51 590 INFO org apach
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
将 CSV 转换为序列文件

我有一个 CSV 文件我想将其转换为 SequenceFile 我最终将使用它来创建 NamedVectors 以在聚类作业中使用我一直在使用 seqdirectory 命令尝试创建 SequenceFile 然后使用 nv 选项将该输
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
Sqoop - 绑定到 YARN 队列

因此使用 MapReduce v2 您可以使用绑定到某些 YARN 队列来管理资源和优先级基本上通过使用 hadoop jar xyz jar D mapreduce job queuename QUEUE1 input output

随机推荐

2种方法，教你使用Python实现接口自动化中的参数关联

前言通常在接口自动化中经常会参数关联的问题那么什么是参数关联参数关联就是上一个接口的返回值会被下一个接口当做参数运用其中Python中可以实现参数关联的方法有很多种今天小编给大家介绍下如何通过Python来实现接口自动化中的参
机器学习概念总结笔记（一）——机器学习算法分类、最小二乘回归、岭回归、LASSO回归

原文 https cloud tencent com community article 137341 机器学习概念总结 1 机器学习算法分类 1 监督学习有train set train set里面y的取值已知 2 无监督学习有tra
Kali-linux-2020 sqli-labs环境配置(含网上最全Less-29在Kali上的配置)

一检查必备环境是否安装及开启 kali 2020中apache2和mysql一般都自带有 1 打开apache2 终端输入sudo service apache2 start 访问http 127 0 0 1 页面显示出来说明启动成功
【threejs】透视相机，实现相机根据模型大小自适应，将模型放置在视角内

透视相机实现相机根据模型大小自适应将模型放置在视角内 const box3 2 new THREE Box3 setFromObject object 新建一个Box3包裹盒把模型包裹起来 const boxSize box3 2 ge
蓝桥杯真题——九进制转十进制

解法一 STL strtol include
普林斯顿微积分-求解多项式的极限问题

x a时的有理函数 x a时的涉及平方根的函数 x 时的有理函数 x 时的类多项式或多项式型函数的比 x 时的有理函数多项式型函数涉及绝对值的函数 x a时的有理函数的极限你首先总是应该尝试用a的值替换x 如果分母不为0 那么你
【大数据】Hive基础知识

Hive基础知识 1 Hive 有哪些特点 Hive 最适合于数据仓库应用程序使用该应用程序进行相关的静态数据分析不需要快速响应给出结果而且数据本身不会频繁变化 Hive 不是一个完整的数据库 Hadoop 以及 HDFS 的设计本身
题目：企业发放的奖金根据利润提成。利润(I)低于或等于10万元时，奖金可提10%；利润高于10万元，低于20万元时，低于10万元的部分按10%提成，高于10万元的部分，可以提成7.5%；20万到40万

题目企业发放的奖金根据利润提成利润 I 低于或等于10万元时奖金可提10 利润高于10万元低于20万元时低于10万元的部分按10 提成高于10万元的部分可以提成7 5 20万到40万之间时高于20万元的部分可提成5 40万
R语言的入门与学习

目前我正在学习R语言开始使用R软件时感到无从下手即使是一些简单的任务 R的实现也不是很明显但当我了解R的使用方法后发现无论是简单的问题还是复杂的问题都可以用R语言得心用手的解决希望通过日常分享一些R语言的知识来促进我对R语言的学
制作jflash下载算法，并解决堆栈溢出导致的写数据错误问题

1 jflash下载算法介绍 jflash是segger开发的一款软件需要配合jlink一起使用使用过jlink的人都知道在项目开发调试阶段非常有帮助 jflash下载算法就是实现当jflash中没有自己使用的芯片或者想使用jfla
ELD透明屏在智能家居中有哪些优点展示？

ELD透明屏是一种新型的显示技术它能够在不需要背光的情况下显示图像和文字 ELD透明屏的原理是利用电致发光效应通过在透明基板上涂覆一层特殊的发光材料当电流通过时发光材料会发出光线从而实现显示效果 ELD透明屏具有许多优点首先它
K8S-Pod（基础）

目录一 k8s核心资源pod介绍 1 pod是什么 2 Pod如何管理多个容器 3 Pod网络 4 Pod存储 5 Pod工作方式二创建Pod资源 1 如何创建一个Pod资源 2 资源清单YAML文件书写技巧 3 通过资源清单文件创建
基于UE4/Unity绘制地图 - 确定展示区域

前言基于UE4 Unity绘制地图基础元素线基于UE4 Unity绘制地图基础元素面和体基础知识在研究清楚如何绘制地图的线面体之后接下来需要确定需要展示的地图区域了地图可以看成是一个巨型的开放世界游戏场景因此为了便于数据存
mysql mvcc

mysql MVCC MVVC 实现排他锁 undolog 版本事务链一致性read view视图版本事务链匹配规则一致性非锁定读在 InnoDB 存储引擎中多版本控制 multi versioning open in new
switch语句判断范围_Linux C语言： switch语句的范围判断！

在C语言中除了循环结构还有的就是分支结构分支结构中有if分支与switch分支一般地需要判断的条件情况少时就使用if分支当判断的情况复杂时就会使用switch语句假设有一道题目要求用户输入一个整数如果该整数为100 则
（C++）将引用用作函数参数——讲解+程序例子

引用经常被用作函数参数使得函数中的变量名成为调用程序中的变量的别名通俗易懂的讲就是将形参变成实参的别名这种传递参数的方法称为按引用传递 C语言只能按值传递按值传递导致被调用函数使用程序的值的拷贝因此C语言采用按指针传递的方式避
Mac在命令行中打开Finder

在当前目录下使用如下代码 open 即可打开当前Finder 并定位当当前目录
PowerDesigner V16.5 安装文件及破解文件

之前在网上找个假的只能看不能创建自己的DB 或者不能破解的比较伤脑筋偶在这里提供一个可长期使用的版本 PowerDesigner165 破解文件 rar http pan baidu com s 1hqEDUCG 636KB P
微信小程序涉嫌通过中断用户体验、限制用户操作的方式，收集与服务无关的用户个人信息，包括但不限于，手机号、

微信小程序涉嫌通过中断用户体验限制用户操作的方式收集与服务无关的用户个人信息包括但不限于手机号身份证号生日住址等违反微信小程序平台运营规则及相关规则建议尽快整改具体运营规范 xxxxxxx 解决方法增加同意协议如
HBase RowKey设计和实现

HBase由于存储特性和读写性能在OLAP即时分析中发挥重要作用 Rowkey的设计好坏关乎到HBase的使用情况我们知道HBase中定位一条数据需要四个维度的限制 RowKey Column Family Column Qualifi

热门标签