Hbase 列族

2024-04-09

Hbase 文档表示，避免创建超过 2-3 个列族，因为 Hbase 不能很好地处理超过 2-3 个列族。其原因在于压缩和刷新，以及 IO。但是，如果我的所有列总是填充（对于每一行），那么我认为这个推理并不那么重要，因此，考虑到我对列的访问是完全随机的（我想访问列的任意组合） - 我可以有一个列族 - 单列配置（有效地尝试使其成为纯柱状）。

有许多博客/维基对此进行了解释，但它们似乎都相互矛盾并增加了更多的混乱。我只是似乎无法消化Hbase更喜欢一个列族的事实，那么调用列存储有什么意义呢？

目前（尽管这种情况预计会改变），一个区域的所有列族都被刷新在一起。这就是人们说“HBase 不能很好地处理超过 2 或 3 个列族”的主要原因。考虑两个 CF，每个都有一列。 A列：A存储整个网页文本。 B:B 列存储页面中的字数。因此，每次我们刷新 A:A 时（这种情况会更频繁地发生，因为 A:A 的数据要大得多），我们还需要为 B:B 列执行整个单独的文件 I/O 处理路由，即使没有需要——如果 B:B 只持有数字，我可以几个月不冲掉它。

如果将 A 和 B 存储在同一列族（A:A 和 A:B）中，您可能会看到更好的刷新 I/O 性能，并且因为大多数 HBase 读取纯粹来自 memstore，您可能会发现读取速度是相等的。

另外，也许更重要的是，如果列的基数差异很大，那么您的区域服务器将需要为密度较低的列族维护无用的大部分为空的文件。这永远不会改变。

所有这些都可以在HBase书籍 http://hbase.apache.org/book.html#number.of.cfs.

因此，就像在所有此类表演情况下一样，measure在决定什么是“正确”路径之前。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hbase

Hbase 列族的相关文章

Hbase-hadoop集成中datanode、regionserver的作用

根据我的理解行被插入到 HBase 表中并作为区域存储在不同的区域服务器中因此区域服务器存储数据类似地就 Hadoop 而言数据存储在 hadoop 集群中的数据节点中假设我在 Hadoop 1 1 1 之上配置了 HBas
在 Hbase shell 上运行多个查询，无需再次调用 hbase shell

再次调用 shell 需要时间我想通过调用 hbase shell 一次来执行多个命令下面的代码仅运行单个查询 cmd echo put test row1 cf a value1 hbase shell 我想在单个 hbase she
从 HBase shell 导出数据

我正在尝试将数据从 HBase Shell 导出到我可以解析的文本文件然后添加到 msysql 数据库我目前正在使用以下命令 echo scan registration COLUMNS gt registration status h
Hbase快速统计行数

现在我实现了行计数ResultScanner像这样 for Result rs scanner next rs null rs scanner next number 如果数据达到百万次计算量很大我想实时计算我不想使用Mapreduce
Hbase 客户端因 /hbase 错误导致连接丢失

我快要疯了安装了Hadoop Hbase 一切都在运行 opt jdk1 6 0 24 bin jps 23261 ThriftServer 22582 QuorumPeerMain 21969 NameNode 23500 Jps 23
Spark 使用数据局部性吗？

我正在尝试了解 Apache Spark 的内部结构我想知道 Spark 是否使用某些机制来确保从 InputFormat 读取或写入 OutputFormat 或 Spark 本机支持的其他格式而不是从 MapReduce 派生的格式
HBase更新操作

我是HBase新手我发现HBase客户端API不支持更新操作那是对的吗如果是这样更新特定行键的值的建议最佳实践是什么您可以使用 PUT 来创建或更新任何单元格的值你don t需要使用删除除非您希望新版本不包含某些旧单元格说我
SparkSQL+Hive+Hbase+Hbase集成不起作用

当我尝试连接配置单元表正在使用时出现错误通过 Hbase 集成创建在 Spark 中我遵循的步骤 Hive表创建代码 CREATE TABLE test sample id string name string STORED BY
将 Jar 文件添加到 WEB-INF/lib [重复]

这个问题在这里已经有答案了我是 Eclipse Java 和 Linux 的新手我搜索这个问题但没有找到答案我想编写一个操作 HBase 表的程序所以我有一些与 HBase 相关的 Jar 文件在普通的 Java 应用程序中我
HBase：复制是如何工作的？

我目前正在将 HBase 作为数据存储进行评估但有一个问题没有得到解答 HBase 在许多节点上存储同一对象的许多副本也称为复制由于HBase具有所谓的强一致性相比之下最终一致它保证每个副本在读取时返回相同的值据我了解 HBas
如何在 Hive 中访问 HBase 表，反之亦然？

作为一名开发人员我通过使用以下命令从现有 MySQL 表导入数据为我们的项目创建了 HBase 表 sqoop job 问题是我们的数据分析师团队熟悉MySQL语法意味着他们可以查询HIVE轻松上桌对于他们我需要在 HIVE 中公
HBase 扫描时出现 java.lang.NoClassDefFoundError

我正在尝试运行 MapReduce 作业来扫描 HBase 表目前我使用的是Cloudera 4 4附带的HBase 0 94 6版本在我的程序中的某个时刻我使用 Scan 并使用以下命令正确导入它 import org apache
Spark 2 的 hbase-spark

我想要进行全面扫描hbase from Spark 2 using Scala 我没有固定的目录定义因此库为SHC https github com hortonworks spark shc不是一个选择我的逻辑选择是使用 hbase
将 protobuf3 与一些依赖于 Java 中的 protobuf2 的库一起使用

我使用protobuf3来表示我们的数据虽然我们需要hbase来存储数据但似乎hbase依赖于protobuf2 当我编写以下行来创建 hbase 表时 admin createTable desc 然后我得到一个例外 NoClassD
Titan-1.0.0+Hbase-0.98.20使用java远程模式连接错误

我正在学习Titan数据库我已经在本地模式下成功运行了它现在我尝试在 Titan 文档中介绍的远程服务器模式下使用 Titan 数据库我的 Titan 版本是 Titan 1 0 0 hadoop1 我的 LAN 中有集群包括
如何在 HBase 中续订过期的 Kerberos 票证？

我有一个小型 spring 服务它提供基本功能例如从 hbase 表中放入删除获取一切似乎都正常但有一个问题启动 Tomcat 服务器 10 小时后我的 kerberos 票证过期因此我应该更新它我尝试对 hbase 使
Hbase 列族

Hbase 文档表示避免创建超过 2 3 个列族因为 Hbase 不能很好地处理超过 2 3 个列族其原因在于压缩和刷新以及 IO 但是如果我的所有列总是填充对于每一行那么我认为这个推理并不那么重要因此考虑到我对列的访问是
HBase 作为 Web 应用程序后端

任何人都可以建议将 HBase 作为基于 Web 的应用程序的主要数据源是否是一个好主意我主要关心的是 HBase 对查询的响应时间是否有可能实现亚秒级响应编辑有关应用程序本身的更多详细信息数据量约500GB文本数据预计很快将
从 Storm Bolt 将行插入 HBase

我希望能够从分布式非本地 Storm 拓扑将新条目写入 HBase 有一些 GitHub 项目提供以下任一功能 HBase 映射器 https github com ptgoetz storm hbase or 预制风暴螺栓 https
获取行 HBase 的特定列族中的列

我正在编写一个应用程序通过 JSP 显示 HBase 中特定表中的数据我想获取一行的特定列族中的所有列有什么办法可以做到这一点吗 public String getColumnsInColumnFamily Result r Stri

随机推荐

在 Eclipse 中复制并粘贴会在每个粘贴行的末尾添加窗口换行符

我在 Mac OS X 10 7 上使用 Eclipse 版本 Indigo Service Release 2 以及 PHP 开发工具和 Aptana Studio 3 插件在首选项 gt 常规 gt 工作区中我选择了文本文件编
GTK 中的延迟加载列表视图#

我希望通过 GTK 中的列表视图显示大型数据集而性能是这里的一个问题我目前正在使用由 ListStore 支持的 TreeView 但将所有数据添加到 ListStore 需要很长时间 GTK 中是否有某种支持延迟加载数据的列表视图小部
使用 win32 从 Python 中的 Outlook Exchange 中提取发件人的电子邮件地址

我正在尝试使用 python 中的 win32 包从 Outlook 2013 中提取发件人的电子邮件地址我的收件箱中有两种电子邮件地址类型 exchange 和 smtp 如果我尝试打印 Exchange 类型的发件人电子邮件地址我会
在gradle依赖中指定ivy配置

我想解决 ivy 存储库的依赖关系但我不知道如何为其指定 ivy 配置我发现我应该这样做 myconf group com eu module MyModule version 1 0 0 configuration ivyconf 但
如何在 Jira 中存档项目，以便它们从项目选择器中消失

我们在 Jira Studio 中有一堆旧项目我们希望保持在线状态以防万一如果我们出于某种原因需要返回它们但我不希望它们出现在我们日常 Jira 使用中的任何地方即仪表板项目选择器等我按照官方指示进行操作here http c
算法：求给定范围内的数字个数

给定一个可能存在重复项的未排序数字数组对数组进行预处理以便找到给定范围内的数字个数时间为 O 1 例如 7 2 3 2 4 1 4 6 两者的数字计数 gt 2 and lt 5 is 5 2 2 3 4 4 对数组进行排序对于已排
是否可以在没有接收器实例的情况下将信号连接到静态插槽？

是否可以在没有接收器实例的情况下将信号连接到静态插槽像这样 connect object SIGNAL some STATIC SLOT staticFooMember 有一个QApplication closeAllWindows Qt
Rails 3.2 和 mongoid + simple_form 上的 validates_presence_of if 条件

我想验证这两个属性的存在 shipping cost and shipping cost anywhere如果属性 shipping等于true 而如果我的模型中有这个但对我来说效果不佳 validates presence of sh
在 AWS Glue pySpark 脚本中使用 SQL

我想使用 AWS Glue 将一些 csv 数据转换为 orc 我创建的 ETL 作业生成了以下 PySpark 脚本 import sys from awsglue transforms import from awsglue utils
C++ 中的运算符 T*（其中 T 是模板参数）是什么？

class NullClass public template
想要在 OSX 上的 OpenCV 中实时镜像视频，不知道从哪里开始

如果还不是很明显的话这是我第一天使用 OpenCV 我希望做的是镜像frame2 然后对其进行上采样我不确定如何在这些 IplImage 类型的帧上使用矩阵运算我如何镜像我的frame2 然后将其上采样到Webcam2 窗口下面是我
连接 SAP HANA 数据库时调用未定义函数 odbc_connect() 消息

I used odbc connect 在我的 PHP 页面中连接到 HANA 数据库当我在本地运行它时效果很好我将相同的 PHP 页面上传到服务器中但收到此错误致命错误调用未定义的函数 odbc connect 代码 conne
有人可以解释一下 Google Chrome 内存缓存吗？

根据this https developer chrome com extensions webRequest CachingAPI 文档这是我找到的唯一描述内存缓存的来源 Chrome 使用两种缓存磁盘缓存和非常快的内存中缓存缓存
Android新构建系统（gradle）和aspectj

在 Google IO 中宣布新的构建系统 gradle 将会取代 ant 我的项目正在使用aspectj 我想在我的项目中使用它我无法找出一些变量来让它工作我在那里找不到 android 输出类路径有人可以帮忙吗这是我当前的 b
Tipsy live 不适用于 jQuery 1.9.0

我们最近将 jQuery 升级到了 1 9 0 但它破坏了我们的醉酒插件它是live功能现在会导致错误 tooltip abbr tipsy live true TypeError this binder is not a functio
如何修复 css({ float: 'left' }) [重复] 上的闭包编译器错误

这个问题在这里已经有答案了可能的重复 Google Closure 编译器解析错误属性 ID 无效css float left https stackoverflow com questions 6611867 google closu
Android MotionEvent.ACTION_MASK

在 OnTouchEvent 中如果您使用以下命令切换不同的触摸操作 switch e getAction 它处理 ACTION DOWN 和 ACTION MOVE 但由于某种原因它不会捕获 ACTION POINTER DOWN 而如
使用 T-Sql，如何将远程服务器上的一个表插入到本地服务器上的另一个表中？

给定远程服务器生产当前可通过 IP 访问和本地数据库开发我如何运行INSERT使用 T SQL 从生产进入开发我使用的是 MS SQL 2005 两个数据库之间的表结构有很大不同因此我需要手动编写一些迁移脚本 UPDAT
从 Excel 中选定的选项卡中选取数据

我有以下问题我有一个包含许多选项卡的文件每个选项卡的名称是一个国家地区选项卡中包含有关该国家地区的各种数据我想创建一个界面选项卡用户可以在其中将国家地区名称放入单元格中例如法国单元格 A1 将数据项放入另一个单元格中
Hbase 列族

Hbase 文档表示避免创建超过 2 3 个列族因为 Hbase 不能很好地处理超过 2 3 个列族其原因在于压缩和刷新以及 IO 但是如果我的所有列总是填充对于每一行那么我认为这个推理并不那么重要因此考虑到我对列的访问是

Hbase 列族

Hbase 列族 的相关文章

随机推荐

热门标签

Hbase 列族的相关文章