HBase：创建多个表或包含多个列的单个表？

2024-04-14

什么时候创建多个表而不是创建具有大量列的单个表才有意义。据我了解，表通常只有几个列族 (1-2)，每个列族可以支持 1000 多个列。

当 HBase 似乎在单个表中可能存在大量列时表现良好时，什么时候创建单独的表才有意义？

在回答问题本身之前，让我首先陈述一些起作用的主要因素。我假设使用的文件系统是 HDFS。

表被划分为键空间的不重叠的分区，称为区域。
键范围 -> 区域映射存储在一个称为元的特殊单区域表中。
一个区域的一个 HBase 列族中的数据存储在单个 HDFS 目录中。它通常是多个文件，但出于所有意图和目的，我们可以假设列族的区域数据存储在 HDFS 上的单个文件中，称为 StoreFile / HFile。
StoreFile 本质上是一个包含 KeyValue 的排序文件。 KeyValue 在逻辑上按顺序表示以下内容：（RowLength、RowKey、FamilyLength、FamilyName、Qualifier、Timestamp、Type）。例如，如果您的 CF 区域中只有两个 KV，其中键相同但值在两列中，则 StoreFile 的外观如下（除了它实际上是字节编码的，并且长度等元数据也是如此）正如我上面提到的那样存储）：
```
Key1:Family1:Qualifier1:Timestamp1:Value1:Put

Key1:Family1:Qualifier2:Timestamp2:Value2:Put
```
StoreFile 分为blocks（默认64KB）并且每个数据块包含的key范围通过多级索引进行索引。可以使用索引+二分搜索来完成单个块内的随机查找。然而，在找到扫描所需的第一个块中的起始位置之后，扫描必须连续地通过特定块。
HBase 是一个基于 LSM 树的数据库，这意味着它有一个内存日志（称为Memstore）定期刷新到创建 StoreFiles 的文件系统。 Memstore 为特定列族的单个区域内的所有列共享。

在处理从 HBase 读取数据/向 HBase 写入数据时涉及多种优化，但上面给出的信息在概念上是正确的。鉴于上述陈述，以下是使用多个列与多个表相比其他方法的优点：

单表多列

由于前缀编码，磁盘上的压缩效果更好，因为键的所有数据都存储在一起，而不是跨表存储在多个文件中。由于数据大小较小，这也会导致磁盘活动减少。
元表上的负载较小，因为区域总数会较小。您将拥有一张表的 N 个区域，而不是 M 个表的 N*M 个区域。这意味着更快的区域查找和元表上的低争用，这是大型集群所关心的问题。
当您需要读取单个行键的多个列时，读取速度更快且 IO 放大较低（导致磁盘活动减少）。
当为单个行键写入多个列时，您可以利用行级事务、批处理和其他性能优化。

何时使用这个:

如果您想跨多列执行行级事务，您have to将它们放在一个表中。
即使您不需要行级事务，但您经常向多个列写入或查询同一行键。一个好的经验法则是，如果平均而言，超过 20% 的列具有单行值，您应该尝试将它们放在一个表中。
当你有太多列时。

多表

如果扫描主要只关注一列，则每个表的扫描速度更快，IO 放大也更低（请记住，扫描中的顺序查找将不必要地读取它们不需要的列）。
良好的数据逻辑分离，特别是当您不需要跨列共享行键时。为一种类型的行键设置一张表。

何时使用:

当数据有明确的逻辑分离时。例如，如果不同列集的行键架构不同，请将这些列集放在单独的表中。
当只有一小部分列具有行键值时（请参阅下面的更好方法）。
您希望为不同的列集设置不同的存储配置。例如。 TTL、压缩率、阻塞文件计数、memstore 大小等（请在下面查看此用例中更好的方法）。

另一种选择：单个表中的多个 CF

从上面可以看出，这两种方法都有优点。如果您的多列具有相同的行键结构（因此，您希望共享行键以提高存储效率或需要跨列事务）但数据非常稀疏（这意味着您只写/读），那么选择变得非常困难行键的一小部分列）。在这种情况下，您似乎需要两全其美。这就是列族的用武之地。如果您可以将列集分区为逻辑子集，其中您主要只访问/读/写单个子集，或者您需要每个子集的存储级别配置（例如 TTL、存储类、写入大量压缩计划）等），那么您可以将每个子集设为一个列族。由于特定列族的数据存储在单个文件（文件集）中，因此您可以在读取列子集时获得更好的局部性，而不会减慢扫描速度。

然而，有一个问题:

不要尝试不必要地使用列族。它们是有相关成本的，而且由于 HBase 中区域级写锁、监控等的工作方式，HBase 不能很好地处理 10 个以上的 CF。仅当跨 CF 的列之间存在逻辑关系，但通常不会跨 CF 执行操作或需要为不同的 CF 设置不同的存储配置时，才使用 CF。如果您在所有列之间共享行键架构，那么仅使用包含所有列的单个 CF 是完全可以的，除非您有一个非常稀疏的数据集，在这种情况下，您可能需要基于上述要点的不同 CF 或不同表。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

HBase：创建多个表或包含多个列的单个表？的相关文章

在 Zookeeper 中创建路径的最有效方法，其中路径的根元素可能存在也可能不存在？

想象一条路径 root child1 child2 child3 想象一下在动物园管理员中可能存在其中的一部分比如 root child1 Zookeeper 中没有等效的 mkdir p 此外如果任何一个操作失败 ZooKeepe
管理数据库更改的最佳方法[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案管理数据库更改的最佳方法是什么无论数据库客户端的语言如何我都需要有一个解决方案另外我希望能够在这些更改中使用特定的数据库功能
MySQL - 超类型/子类型设计

我需要创建以下数据库对于半卡车我不需要额外的子类型而对于汽车我只需要这 3 个子类型对于轿车我需要四个子类型对于 SELECT 我将使用 JOIN 规范化数据库但我需要找到一种简单的方法来进行 INSERT 车辆表存储常用信
Hive 上的自定义 MapReduce 程序，规则是什么？输入和输出怎么样？

我被困了几天因为我想根据我在 hive 上的查询创建一个自定义的地图缩减程序在谷歌搜索后我发现没有太多例子而且我仍然对规则感到困惑创建自定义 MapReduce 程序的规则是什么映射器和减速器类怎么样任何人都可以提供任何解决方案
远程执行hadoop作业时出现异常

我正在尝试在远程 hadoop 集群上执行 Hadoop 作业下面是我的代码 Configuration conf new Configuration conf set fs default name hdfs server 9000 c
Spark 2.0 弃用了“DirectParquetOutputCommitter”，没有它如何生活？

最近我们从 HDFS 上的 EMR gt S3 上的 EMR 启用了一致视图的 EMRFS 迁移我们意识到 Spark SaveAsTable 镶木地板格式写入 S3 的速度比 HDFS 慢约 4 倍但我们发现使用 DirectPa
hbase api - 通过行ID列表获取数据行信息

是否可以通过hbase java API通过行id列表获取hbase数据记录例如我有一个已知的 hbase 行 ID 列表 mykey1 myhash1 mykey1 myhash2 mykey1 myhash3 mykey2 myha
每个表都应该有主键吗？

我正在创建一个数据库表但没有为其分配逻辑主键每个表都应该有主键吗简短回答 yes 长答案你需要你的桌子可以加入一些东西如果您希望表聚集则需要某种主键如果您的表设计不需要主键请重新考虑您的设计很可能您遗漏了某些内容为什么要
Curl下载到HDFS

我有这个代码 curl o fileName csv url xargs hdfs dfs moveFromLocal 1 somePath 当我执行此代码时 curl 将请求中的值放入 fileName csv 中该文件将移动到 HDF
无法从 JAR 文件加载主类

我有一个 Spark scala 应用程序我尝试显示一条简单的消息 Hello my App 当我编译它时sbt compile并运行它sbt run没关系我成功显示了我的消息但他显示了错误像这样 Hello my applicat
基于 MySQL 中的另一列创建计算列

我的表中有 2 列 varchar 8 and an int 我想要auto increment the int column当我这样做时我想将值复制到varchar 8 column 但用 0 填充它直到它达到 8 个字符长因此例如
数据库索引：是好事、坏事还是浪费时间？

这里通常建议添加索引作为性能问题的补救措施我只讨论读取和查询我们都知道索引会使写入速度变慢多年来我在 DB2 和 MSSQL 上多次尝试过这种补救措施但结果总是令人失望我的发现是无论索引会让事情变得更好是多么明显事实证明查
Couchbase/hadoop 连接器：sqoop 作业失败“找到接口 org.apache.hadoop.mapreduce.TaskAttemptContext，但需要类”

我的配置 CouchBase服务器2 0 Sqoop 1 4 2 针对hadoop版本2 0 0编译堆栈Hadoop CDH4 1 2 我想使用 CouchBase Hadoop 连接器 http www couchbase com de
如果 HBase 不是运行在分布式环境中，它还有意义吗？

我正在构建数据索引这将需要以形式存储大量三元组 document term weight 我将存储多达几百万个这样的行目前我正在 MySQL 中将其作为一个简单的表来执行我将文档和术语标识符存储为字符串值而不是其他表的外键我正在重
Sqoop mysql错误-通信链路故障

尝试运行以下命令 sqoop import connect jdbc mysql 3306 home credit risk table bureau target dir home sqoop username root password
是否值得购买 Mahout in Action 以跟上 Mahout 的速度，或者还有其他更好的来源吗？

我目前是一个非常随意的用户阿帕奇马胡特 http mahout apache org 我正在考虑购买这本书象夫在行动 http www manning com owen 不幸的是我很难理解这本书的价值并且认为它是一本曼宁早期访问计划 h
Hadoop安装问题：

我跟着this http www bogotobogo com Hadoop BigData hadoop Install on ubuntu single node cluster phpHadoop 安装教程不幸的是当我运行全部启动
从 Storm Bolt 将行插入 HBase

我希望能够从分布式非本地 Storm 拓扑将新条目写入 HBase 有一些 GitHub 项目提供以下任一功能 HBase 映射器 https github com ptgoetz storm hbase or 预制风暴螺栓 https
在数据库设计中什么时候需要使用一对一关系？

在数据库设计中什么时候需要使用一对一关系在我看来如果两个表是一对一的关系那么它们可以合并成一个表这是真的对大型表进行垂直分区以减少 I O 和缓存需求将经常查询的列与很少查询的列分开向生产系统添加列时alter table就是
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master

随机推荐

C++ pow 函数得到一个奇怪的结果[重复]

这个问题在这里已经有答案了使用某些版本的 minGW 以下代码将打印 99 int high high pow 10 2 std cout lt
String.IndexOf 方法的表达式树

我应该如何构建表达式树string IndexOf substring StringComparison OrdinalIgnoreCase 我可以在没有第二个参数的情况下让它工作 StringComparison OrdinalIgnor
是否有一种与系统无关的方法来确定表示当前目录级别和父目录级别的字符串？

C 代码可以运行的不同环境对于文件和目录路径必须是什么样子有不同的约定规则一个常见的示例是分隔目录级别的字符在 Windows 上它是在Linux上它是还有其他也是未来的系统可能遵循不同的规则因此为了创建健壮的代码建
PostgreSQL：将结果与标题复制/粘贴到 Excel 中，无需代码

我使用 MS SQL Server 2008 R2 MS SQL 我可以右键单击查询结果将其与标题一起复制粘贴到 Excel 中以便于探索现在使用 PG Admin PostgreSQL 我必须执行导出文件 gt 导出 gt CS
如何使用 .NET XML API 删除 xmlns 属性

XmlElement Attributes Remove 方法对于任意属性都可以正常工作导致已删除的属性从 XmlDocument OuterXml 属性中删除然而 Xmlns 属性是不同的这是一个例子 XmlDocument doc
“FOR UPDATE”v/s“LOCK IN SHARE MODE”：允许并发线程读取锁定行的更新“状态”值

我有以下场景用户 X 从位置 lc1 登录到应用程序调用它Ulc1 用户 X 已被黑客攻击或者他的某个朋友知道他的登录凭据或者他只是从他计算机上的不同浏览器登录等等你明白了从位置 lc2 同时登录调用它Ulc2 我正在使用一
GraphQL 代码中的 Javascript 循环依赖

我是 Javascript 新手不知道如何解决这个问题我正在创建一个 GraphQL 服务来提供对数据库的查询我想定义三种类型个人公司和关系 type Relation person Person company Company
Java 如何向字符串添加重音符号“e”？

在tucuxi现有职位的帮助下Java 不使用正则表达式从 String 中删除 HTML https stackoverflow com questions 2488967 java remove html from string wit
Java Lambda 表达式 [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案 Java 8 中添加了 Lambda 表达式我想了解为什么这很重要对于尚未接触过函数式编程习惯的 Java 程序员来说这意味着什么这是否意味着
Postgresql - 加密 jsonb 数据

我的 postgres 表中有一个 jsonb 列用于存储 json 数据我想以加密格式存储数据并能够查询并获取纯文本值有办法做到吗 Use the pgcrypto https www postgresql org docs cur
处理序列中的每一对

我正在寻找一种简洁的方法来处理 NET 中序列中的每对无序元素我知道我可以用嵌套来做到这一点for循环但我一直在寻找更具可读性的东西我正在想象类似修改过的东西Any 扩展方法 IEnumerable
C# 在下一行之前等待或暂停 X 秒

我想找出执行以下操作的最佳方法是什么我有一个与 httpwebrequest 一起使用的控制台应用程序在我的应用程序的某些部分我想这样做 agent GetURL http site com etc Wait for 8 16 Seco
在 IOS 中单击时更改按钮文本颜色

我知道这个问题经常被问到并且许多答案都是正确的我的代码中遇到了问题我有单选按钮当用户单击按钮时背景颜色和文本颜色会发生变化背景颜色按我的预期更改但单击按钮时文本颜色变为蓝色区域我已将其编码为在单击时更改白色但是当我单击按钮
将 Map key 反序列化为 POJO 引用

Jackson 是否可以从给定 id 的相同 json 字符串中获取对先前反序列化对象的引用例如我有以下 Java 类 public class Company List
将 iPhone 应用程序上传到 AppStore 的步骤

我想知道将我的 iPhone 应用程序上传到 AppStore 的基本步骤如何使用证书创建配置文件以及上传应用程序还需要执行哪些其他设置我刚刚使用 Xcode 和 iPhone SDK V2 2 1 在 iMac 上制作了一个应用程序
所有方法都返回“.autoNumeric 不是函数 - 无法取消数字格式”

我试图获取使用 autoNumeric 格式化的输入数字的原始值但不能因为我尝试执行此操作的每种方法都会返回 autoNumeric 不是函数在控制台中 document ready function new AutoNumeric
使用Android GPS检测并与其他手机连接

所以我昨天问了类似的问题并且确实收到了我的问题的答案但是我真的认为我问得不正确因此没有收到我需要的确切信息我正在寻找 API 一些开源代码甚至只是其他人在 Android 上实现这一目标的方法我正在制作一个应用程序需要查找指定
为什么Python中没有len(file)？

我对 Python 并不陌生但我仍然很难理解是什么让某些东西变得 Pythonic 反之亦然如果这是一个愚蠢的问题请原谅我但是为什么我不能通过执行 len file 来获取文件的大小 file len 甚至没有实现所以它不像其他东
过度使用 If else 语句

我有一个查询那就是我使用了一种方法但是我很多次使用了 If Else 不是它变得非常含糊请建议我也可以使用其他条件循环吗下面是我的代码 if cardType AARP CARD TYPE userResponse messageB
HBase：创建多个表或包含多个列的单个表？

什么时候创建多个表而不是创建具有大量列的单个表才有意义据我了解表通常只有几个列族 1 2 每个列族可以支持 1000 多个列当 HBase 似乎在单个表中可能存在大量列时表现良好时什么时候创建单独的表才有意义在回答问题本身之前让

HBase：创建多个表或包含多个列的单个表？

HBase：创建多个表或包含多个列的单个表？ 的相关文章

随机推荐

热门标签

HBase：创建多个表或包含多个列的单个表？的相关文章