如何像 Hive 表分区一样在 Hbase 表中创建分区

2024-01-07

我们计划从 CDH3 迁移到 CDH4，作为迁移的一部分，我们还计划将 HBASE 引入我们的系统，因为它也会更新数据，在 CDH3 中我们使用 Hive 作为仓库。

这里我们遇到了迁移的主要问题，Hive 支持表分区。我们的系统有许多不同模式的表，有些表有基于日期的分区，我们有过去 5 年的数据历史记录（某些表中存在 365 * 5 分区）。

我们也希望在 HBase 中实现相同的行为，当我浏览时，我找不到在 HBase 中创建分区的解决方案。任何人都可以帮助我在 HBase 中实现这一分区明智的表创建吗？

我们选择 HBASE 的原因是它支持更新。

如果 HBASE 不支持这一点，则其他（如 MangoDB、Cassandra）支持我们的行为。

如果我们至少能找到一些解决方案，那真的很有帮助。

HBase有一个接近分区的概念，称为分区region http://hbase.apache.org/book/regions.arch.html。然而，HBase 中的这些分区不像 Hive（或 RDBMS）分区那样工作。每个区域都包含一系列键，但您可以通过拆分或分割将键范围分成更小的区域 - 例如如果您的原始区域包含键 0-9，您可以将其分为两个较小的区域 0-4 和 5-9 或十个分区 0、1、2...等。

如果您的密钥是复合的，那么日期将是它的第一部分，然后是您今天的密钥，您可以预先分割 hbase，以便每天都会获得一个或多个区域。

但是，您应该注意，最重要字节是连续的键会减慢您的写入速度（如果您正在进行一次性加载，则可能不是问题），这是一个称为“热点”的问题 - 您可以阅读有关它的信息以及克服它的示例方法来自 sematext 的 Alex Baranau 的博客文章 http://blog.sematext.com/2012/04/09/hbasewd-avoid-regionserver-hotspotting-despite-writing-records-with-sequential-keys/

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hbase

如何像 Hive 表分区一样在 Hbase 表中创建分区的相关文章

从 HBase shell 导出数据

我正在尝试将数据从 HBase Shell 导出到我可以解析的文本文件然后添加到 msysql 数据库我目前正在使用以下命令 echo scan registration COLUMNS gt registration status h
运输例外

我正在尝试导入 happybase 但在连接时收到以下错误消息我已经运行了 Hadoop 伪节点集群和 Hbase 安装的组件版本如下 Hadoop 版本 1 0 4 Hbase 版本 0 94 4 快乐基地 0 4 有人可以查看下面的例
如何增加 HBase 表中的区域数量

我在 HBase 中创建了一个表预分割了 8 个区域使用 HexStringSplit 作为分割算法现在我想增加区域的数量而不破坏现有的表及其中的数据我创建预分割的命令是 create t1 f1 NUMREGIONS gt 15
Java中通过忽略开始行和结束行的一部分来扫描HBase行

我的 HBase 行如下 ABC A1 20160101 ABC A2 20160102 ABC A3 20160103 XYZ A9 20160201 从我的Java代码中我知道第一部分ABC和最后一部分20160101 我没办法得到中间
SparkSQL+Hive+Hbase+Hbase集成不起作用

当我尝试连接配置单元表正在使用时出现错误通过 Hbase 集成创建在 Spark 中我遵循的步骤 Hive表创建代码 CREATE TABLE test sample id string name string STORED BY
HBASE SPARK 带过滤器的查询，无需加载所有 hbase

我必须查询 HBASE 然后使用 Spark 和 scala 处理数据我的问题是通过我的解决方案我获取 HBASE 表的所有数据然后进行过滤这不是一种有效的方法因为它占用了太多内存所以我想直接做过滤器我该怎么做 def Hb
我想扫描大量数据（基于范围的查询），在写入数据时我可以做哪些优化以使扫描变得更快？

I have billion我要扫描的 hbase 行数million一次行什么是最好的优化技术我可以尽可能快地进行扫描我们有类似的问题我们需要通过键扫描数百万行为此我们使用了映射缩减技术对此没有标准的解决方案因此我们编写了一个
在 Java 中连接来自 HBase 的两个结果集？

是否可以连接从 java 中的 hbase 检索的两个或多个结果集不不可能加入 JDBC 结果集但是您可以获取它们的结果并手动组合它们如果它们兼容如果它们属于同一实体 EDIT 如果您只需要组合两个相同类型的列表您可以这样做
高效查询Hbase

我使用 Java 作为查询 Hbase 的客户端我的 Hbase 表设置如下 ROWKEY HOST EVENT 21 1465435 host hst com clicked 22 1463456 hlo wrld com dragge
Hbase 架构嵌套实体

有谁有关于如何创建带有嵌套实体的 Hbase 表的示例吗 Example UserName string SSN string Books collection 例如书籍收藏看起来像这样 Books isbn title etc 我找不到
重新部署后 HBase 协处理器未更新

我正在使用 HBase 1 1 2 并尝试重新部署自定义端点协处理器来修复 Java 代码中的错误我对协处理器代码进行了一些更改并通过以下步骤重新部署它重建协处理器 jar 将其复制到 HDFS 上的某个位置删除现有的协处理器 al
Spark：如何通过 python-api 使用 HBase 过滤器，例如 QualiferFilter

我想通过使用像 python api 中的 QualiferFilter 这样的过滤器从 HBase 获取行我知道如何从 HBase 获取行就像在代码下一样 host localhost keyConv org apache spark
HBase 上的 Thrift 有性能基准吗？

我有一个可以将大量数据写入 hbase 的系统系统是用c 编写的发现hbase有其他语言的thrift接口我的问题是 HBase 上的 Thrift 有性能基准吗与java原生api相比最劣势是什么我推荐最近关于这个主题的两篇博
将 protobuf3 与一些依赖于 Java 中的 protobuf2 的库一起使用

我使用protobuf3来表示我们的数据虽然我们需要hbase来存储数据但似乎hbase依赖于protobuf2 当我编写以下行来创建 hbase 表时 admin createTable desc 然后我得到一个例外 NoClassD
Hbase 列族

Hbase 文档表示避免创建超过 2 3 个列族因为 Hbase 不能很好地处理超过 2 3 个列族其原因在于压缩和刷新以及 IO 但是如果我的所有列总是填充对于每一行那么我认为这个推理并不那么重要因此考虑到我对列的访问是
如何定义Titan Graph DB Vertex的数据类型？

我正在使用 Titan 和 Blueprint API 创建图形数据表我使用 HBase 作为后端我知道如何定义关键索引的数据类型 Example TitanKey name graph makeType name name dataT
将多个前缀行过滤器设置为扫描仪 hbase java

我想创建一台扫描仪它可以为我提供带有 2 个前缀过滤器的结果例如我想要其键以字符串 x 开头或以字符串 y 开头的所有行目前我知道只能使用一个前缀方法如下 scan setRowPrefixFilter prefixFiltet 在
如果 HBase 不是运行在分布式环境中，它还有意义吗？

我正在构建数据索引这将需要以形式存储大量三元组 document term weight 我将存储多达几百万个这样的行目前我正在 MySQL 中将其作为一个简单的表来执行我将文档和术语标识符存储为字符串值而不是其他表的外键我正在重
从 Storm Bolt 将行插入 HBase

我希望能够从分布式非本地 Storm 拓扑将新条目写入 HBase 有一些 GitHub 项目提供以下任一功能 HBase 映射器 https github com ptgoetz storm hbase or 预制风暴螺栓 https
Janusgraph 0.3.2 + HBase 1.4.9 - 无法设置 graph.timestamps

我在 Docker 容器中运行 Janusgraph 0 3 2 并尝试使用运行 HBase 1 4 9 的 AWS EMR 集群作为存储后端我可以运行 gremlin server sh 但如果我尝试保存某些内容我会得到粘贴在下面的堆

随机推荐

resource_stall.other 可能意味着什么

Whiskey Lake i7 8565U The RESOURCE STALLS OTHER英特尔文档看起来并没有很好地解释计算由于其他原因而停止执行时的周期数资源问题我在一个内存副本的例子上进行了实验16MiB循环中随机生成的数据
加载静态数据到Ext.data.TreeStore

我可以加载一些静态数据吗Ext data TreeStore实例对于 Ext data Store 来说非常简单我们所要做的就是添加数据参数 http docs sencha com ext js 4 0 api Ext data S
使用 Bjam for Boost.Python 包含系统库

这可能是一个非常基本的问题但我无法在任何地方找到解决方案我正在使用 Boost Python 在 C 中构建 Python 扩展并且需要将我的项目与 libpcap 链接但我指定的任何内容似乎都无法将 bjam 指向正确的位置 Pc
如何使用 Swift 保存远程图像？

我正在尝试用 Swift 显示和保存图像第一次点击时它在 imageview 上显示远程图像第二次点击时它显示空白 imageview 而不是第一次点击时保存的本地图像 var paths NSSearchPathForDirect
如何在 JAX-RS 中设置响应标头以便用户看到 Excel 的下载弹出窗口？

我编写了使用 REST JAX RS 生成 Excel 文件的代码并确认生成的 Excel 文件位于 GlassFish 服务器目录中但我的目标是当用户单击按钮生成 Excel xls 时我希望显示下载弹出窗口询问用户是否保存或
使用 Maven Shade 插件的 Spring Boot - 控制器未映射（404 错误）

对于我的带有嵌入式 tomcat 的 Spring boot 应用程序由于一些限制我需要取消spring boot maven plugin并且需要使用maven shade plugin 使用 maven package 命令我可以成
如何代理对 api.twitter.com 的请求（包括 SSL 证书）？

我正在使用 Twitter 的新功能面料SDK https dev twitter com twitter kit android对于安卓我已经设置了Charles http www charlesproxy com 作为我的 Mac 上
如何将方向数据写入 UIImage iOS SDK

我有一个问题我从 imagePicker 相机而不是库获得了 UIImage 但是当我使用 UIImageJPEGRepresentation writeToFile atomically 将其写入文件时我丢失了方向数据所有图像都是
使用 matplotlib 绘制没有周末间隙的时间序列烛台

从雅虎财经导入数据后尝试绘制烛台系列我正在使用 python 2 7 我已经绘制了一个系列我想添加与烛台相同的系列但我不知道如何做到这一点 import matplotlib pyplot as plt from matplotlib
Rails 教程：RSpec 测试解耦

我正在尝试做第 8 5 章练习 2 http ruby railstutorial org book ruby on rails tutorial sec sign in out exercises在迈克尔哈特尔的Ruby on Rail
使用 SP_SEND_DBMAIL 的存储过程向所有收件人发送重复的电子邮件

我有一个每天晚上运行的存储过程它应该将查询结果发送给多个收件人然而在大多数情况下它最终会在一分钟后发送一封重复的电子邮件我使用的代码如下所有电子邮件和数据库引用均已更改 EXEC msdb dbo sp send dbmail
如果 Clean Architecture 的接口适配器无法了解其所适配的基础设施的详细信息，那么它们如何才能适配接口呢？

根据我对 Clean Architecture 的理解每一层都只能直接依赖于内部层而与外部层相关只有抽象才允许通过 DIP 设置为依赖项遵循这个规则适配器层可以直接依赖于应用程序层并且只能通过抽象的方式将基础设施层作为依赖项在
显示来自 EXT:news 的特定语言记录

我正在尝试以与默认语言不同的语言显示新闻记录但默认语言中不存在记录多语言配置是 config sys language mode strict sys language overlay 0 页面上的插件设置为所有语言仅以默认语言存在
无法将 .p12 证书导入到 cacerts

导入时 p12 to cacerts我面临以下问题第一行说别名已经存在然后当我尝试覆盖它时它说找不到别名请帮我解决这个问题 usr java default jre bin keytool importkeystore destst
Laravel：存储未将文件放入公共文件夹中

当我使用时 Storage putFile documents content public 我期望公共目录中的文件夹结构例如 storage app public documents XyZ pdf 代替 storage app doc
WebAudio 在开始和结束时播放声音

每当我使用以下代码播放声音时 binaryData a wave file from a websocket let ctx new AudioContext ctx decodeAudioData binaryData function
R 绘图标题大写和斜体

我正在尝试使用斜体和大写文本制作标题现在我有这个代码行 main substitute paste italic S aureus 10 6 growth inhibition 知道如何将 6 变成大写吗我们可以尝试 plot 1 ma
Mysql 事件不工作

我通过 phpmyadmin 在我的 mysql 数据库上添加了以下简单的测试事件 CREATE DEFINER root localhost EVENT my event ON SCHEDULE EVERY 1 MINUTE STARTS
根据 Pig 中的数据将关系拆分为不同的输出文件

目前我的数据如下所示 1 A a 1 A b 2 B b 2 B c 3 A a 3 B b 3 C c 我想根据第一列中的数据将它们存储在不同的文件中所以我希望我的输出与此类似 1 out包含 A a A b 2 out包含 B b
如何像 Hive 表分区一样在 Hbase 表中创建分区

我们计划从 CDH3 迁移到 CDH4 作为迁移的一部分我们还计划将 HBASE 引入我们的系统因为它也会更新数据在 CDH3 中我们使用 Hive 作为仓库这里我们遇到了迁移的主要问题 Hive 支持表分区我们的系统有许多不同模

如何像 Hive 表分区一样在 Hbase 表中创建分区

如何像 Hive 表分区一样在 Hbase 表中创建分区 的相关文章

随机推荐

热门标签

如何像 Hive 表分区一样在 Hbase 表中创建分区的相关文章