高效查询Hbase

2024-02-13

我使用 Java 作为查询 Hbase 的客户端。

我的 Hbase 表设置如下：

ROWKEY     |     HOST     |     EVENT
-----------|--------------|----------
21_1465435 | host.hst.com |  clicked
22_1463456 | hlo.wrld.com |  dragged
    .             .             .
    .             .             .
    .             .             .

我需要做的第一件事是获取所有的列表ROWKEYs其中有host.hst.com与之相关。

我可以在 Column 创建扫描仪host对于每行值column value = host.hst.com我会添加相应的ROWKEY到列表中。看起来效率相当高。O(n)获取所有行。

现在是最困难的部分。对于每个ROWKEY在列表中，我需要获取相应的EVENT.

如果我用普通的GET命令获取单元格(ROWKEY, EVENT)，我相信扫描仪是在EVENT这需要O(n)是时候找到正确的单元格并返回值了。对于每个人来说，这都是相当糟糕的时间复杂度ROWKEY。将两者结合起来给我们O(n^2).

有没有更有效的方法来解决这个问题？

非常感谢您提前提供的任何帮助！

你的...是n这里？？有了 RowKey 在手 - 我想你的意思是HBaserowkey - 不是一些手工制作的？？ - 这对于 HBase 来说是快速/简单的。将其视为 O(1)。

如果 ROWKEY 是实际列you创建..然后there是你的问题。请改用 HBase 提供的 rowkey。

那么让我们继续 - 假设您 (a) 已经正确使用了提供的 hbaserowkey- 或者已经修复了你的结构来这样做。

在这种情况下，您可以简单地创建一个单独的get对于每个(rowkey, EVENT)值如下：

Perform a `get` with the given `rowkey`. 
In your result then filter out EVENT in <yourEventValues for that rowkey>

所以你最终会获取all给定行键的最近（最新时间戳）条目。与 'n' 相比，这大概很小？那么过滤就是对一列的快速操作。

您还可以通过批量执行来加快速度multiget。节省的成本来自于减少了 HBase 主服务器的往返次数以及主服务器/区域服务器的解析/计划生成。

Update感谢OP：我对情况了解得更清楚了。我建议简单地使用“host |”作为行键。然后你可以做一个范围扫描并从单个中获取条目Get / Scan.

另一个更新

HBase 支持基于 rowkey 前缀的范围扫描。因此，您有 foobarRow1、foobarRow2、.. 等，然后您可以对 (foobarRow、foobarRowz) 进行范围扫描，它将找到具有以以下开头的行键的所有行foobarRow- 以及后面的任何字母数字字符。

看看这个HBase（简单）：如何在 hbase shell 中执行范围前缀扫描 https://stackoverflow.com/questions/17558547/hbase-easy-how-to-perform-range-prefix-scan-in-hbase-shell

这是一些说明性代码：

SingleColumnValueFilter filter = new SingleColumnValueFilter(
   Bytes.toBytes("columnfamily"),
   Bytes.toBytes("storenumber"),
   CompareFilter.CompareOp.NOT_EQUAL,
   Bytes.toBytes(15)
);
filter.setFilterIfMissing(true);
Scan scan = new Scan(
   Bytes.toBytes("20110103-1"),
   Bytes.toBytes("20110105-1")
);
scan.setFilter(filter);

请注意，20110103-1 and 20110105-1提供一系列要搜索的行键。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

高效查询Hbase 的相关文章

URL.setURLStreamHandlerFactory

我正在使用带有嵌入式 Jetty 的可执行 jar 开发一个 Web 应用程序我的jar包含一个依赖jar jar in jar 我参考了JarRsrcLoader and RsrcURLStreamHandlerFactory由 Ecl
如何开始使用 Chainsaw for Log4j？

我想开始使用 Chainsaw v2 几乎没有关于它的信息我只找到了this http www velocityreviews com forums t140105 help using chainsaw for log4j html 但
Junit maven构建错误（maven-surefire-plugin：2.19.1：测试失败：分叉进程中出现错误）[重复]

这个问题在这里已经有答案了我通过引用创建了一个示例 struts 2 项目和 J unit 测试用例link http self learning java tutorial blogspot com au 2015 04 struts2
将过滤器添加到 Eclipse 中的 Project Explorer

我想向 Project Explorer 添加一个新的过滤器以向用户隐藏一些在 Eclipse RCP 应用程序中自动创建的项目到目前为止我已经找到了两个扩展点 org eclipse ui ide resourceFilters 允许
Java 正则表达式 - 字母数字，最多一个连字符，句点或下划线，七个字符长

我是 Java 正则表达式工具的新手尽管它们潜力巨大但我很难完成这项任务我想编写一个正则表达式来验证遵循以下语法的输入字符串小写字母和数字的任意组合仅一个下划线一个破折号或一个句号无其他特殊字符最小长度为 5 我想出了以下解
java.lang.LinkageError：尝试重复的类定义

为什么会发生错误以及如何修复它 02 13 02 pool 4 thread 2 WARN Exception in thread pool 4 thread 2 02 13 02 pool 4 thread 2 WARN java lan
字符串池可以包含两个具有相同值的字符串吗？ [复制]

这个问题在这里已经有答案了字符串池可以包含两个具有相同值的字符串吗 String str abc String str1 new String abc Will the second statement with new operator
如何导入 org.apache.commons.lang3.ArrayUtils;进入 Eclipse [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我如何导入 org apache commons lang3 ArrayUtils 将库添加到 Ecl
容器中的 JVM 计算处理器错误？

最近我又做了一些研究偶然发现了这一点在向 OpenJDK 团队抱怨之前我想看看是否有其他人观察到这一点或者不同意我的结论因此众所周知 JVM 长期以来忽略了应用于 cgroup 的内存限制众所周知现在从 Java 8 更新某
Intellij 中的 Google OR-Tools：UnsatisfiedLinkError

我正在建立一个应该使用 Google OR Tools 的 java 框架下面的代码编译成功但在运行时抛出异常 Exception in thread main java lang UnsatisfiedLinkError com go
Jenkins 的代码覆盖率 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
Java：java.util.ConcurrentModificationException

我正在制作 2D 目前正在研究用子弹射击子弹是一个单独的类所有项目符号都存储在称为项目符号的数组列表中当它超出屏幕一侧 Exception in thread main java util ConcurrentModification
创建正则表达式匹配数组

在Java中我试图将所有正则表达式匹配返回到一个数组但似乎您只能检查模式是否匹配某些内容布尔值如何使用正则表达式匹配来形成与给定字符串中的正则表达式匹配的所有字符串的数组 4城堡的回答 https stackoverflow com
Hibernate HQL：将对值作为 IN 子句中的参数传递

我面临一个问题如何使用 IN 子句将查询中的成对值的参数传递给 HQL 例如 select id name from ABC where id reg date in x y 并且参数是不同的数据类型string id 和reg date
JavaFX - 为什么多次将节点添加到窗格或不同的窗格会导致错误？

我现在正在学习基本的 JavaFX 我不明白我正在阅读的书中的这一说法不诸如文本字段之类的节点只能添加到一个窗格中一次将节点添加到多次窗格或不同的窗格将导致运行时错误我可以从书中提供的UML图看出它是一个组合但我不明白为什么库类
使用 secp256r1 曲线和 SHA256 算法生成 ECDSA 签名 - BouncyCastle

我正在尝试使用带有 secp256r1 曲线 P256 的 ECDSA 和用于消息哈希的 SHA256 算法生成签名我也在使用 Bouncy Castle 库下面的代码 public class MyTest param args pu
警告：无法更改每个人的权限：

当运行 Java 快速入门示例时https developers google com drive web quickstart java hl hu https developers google com drive web quicks
春季 CORS。在允许的来源中添加模式

查看CORS的弹簧指南以下代码启用所有允许的来源 public class MyWebMVCConfigurer extends WebMvcConfigurerAdapter Override public void addCorsMa
失败时石英重试

假设我有一个这样配置的触发器
摩尔斯电码至英语

我现在的问题是让摩尔斯电码转英语正常工作将英语转换为莫尔斯电码的第一部分工作正常我知道以前已经有人问过这个问题但我不知道我做错了什么我知道我需要在某个地方进行拆分但我只是不确定将其放在代码中的何处现在莫尔斯电码到英语的部分

随机推荐

C 或 C++ 中乘法和除法的较高部分？

当我在汇编中将一对 4 字节整数相乘时结果的较低部分在 EAX 中较高部分在 EDX 中如果我使用 C 或 C 并且我想获得更高的部分是否可以不使用内联汇编是否可以以同样的方式从 EAX 获得整数除法结果从 EDX 获得模数结果
Android NDK - 附加包含目录

我正在使用 Android NDK 构建共享库我包含了 Android mk 文件中的一个片段该片段给我带来了一些问题 LOCAL PATH call my dir other module here other module here
在 React Native 中使用 React Navigation 隐藏 StackNavigator 上的标头

我有以下内容 import React from react import StyleSheet Text View Button from react native import StackNavigator from react nav
专门化模板类的模板成员函数？

我有一个模板类它有一个需要专门化的模板成员函数如下所示 template
C#：获取从表单发布的值[重复]

这个问题在这里已经有答案了我使用带有方法 post 的表单从另一个页面发布一些数据我想知道的是获取这些值的最佳方法是什么按以下形式的每个名称 Request name 或者有什么方法可以获取数据集合并迭代它谢谢你可以写 fore
慢速 SoapHttpClientProtocol 构造函数

我正在使用 Microsoft Dynamics CRM 进行一些实验您通过 Web 服务与它交互我已将 Web 引用添加到我的项目中 Web服务接口非常丰富生成的 Reference cs 有90k左右我在控制台应用程序中使用网络
使用 Linux 网络设备别名时指定 TCP 套接字的源 IP 地址

对于一些特定的网络测试我创建了一个 VLAN 设备 eth1 900 和几个别名 eth1 900 1 和 eth1 900 2 eth1 900 Link encap Ethernet HWaddr 00 18 E7 17 2F 13
使用 Database.SetInitializer 避免霰弹枪手术

The 规范答案 https stackoverflow com a 8679662 161457关于放置的地方Database SetInitializer来电处于Global asax对于网络项目我正在寻找另一种选择我们使用 Ent
如何在 Go 中获得“虚拟主机”功能？

使用 Nginx Django 创建虚拟主机就像编写适当的配置一样简单对于 Go 我发现了这个https codereview appspot com 4070043 https codereview appspot com 407004
Beego - 端点测试

我正在测试 beego 的 http 自定义端点 package test import github com astaxie beego github com smartystreets goconvey convey golife ap
带有水平滚动条的 pre/code 元素破坏了 Firefox 上的 Flex 布局

在我的基于弹性盒的布局中我可能有一个 pre code code pre 元素以及其他元素由于它的内容可能比容器更宽所以我做了它overflow x auto 它在 Chrome 上完美运行但它在 Firefox 上被破坏了在没
如何在docker中运行chromedp

我正在尝试跑步chromedp https github com chromedp chromedp在码头工人我的main go https github com ypapax chromedp docker blob master ma
在 OS X 上为 Java 7u7（包含 JavaFX 2.2）编译 scalafx

的编译指令scalafx http code google com p scalafx 说要做 export JAVAFX HOME Path To javafx sdk2 1 0 beta sbt clean compile packag
使用点运算符设置frame.size

我有一个 UIController 正如你们所知UIController与视图关联您可以使用合成的 getter 和 setters 方法访问它 UIController controller init code controller v
MediaFire Rest API 会话签名 SHA1？

我正在尝试连接到媒体之火 http www mediafire com使用他们的 API 根据该文件get session token http developers mediafire com index php REST API get
在 Azure Web App 中访问 SSL 证书

我已将 SSL 证书上传到在 Node 上运行的 Azure Web App 现在我想从 Node 脚本以编程方式访问我的证书以使用它来签署 JWT 有没有办法做到这一点我找到了类似的答案 https stackoverflow com
MSBuild TFS 内部版本号

我已经使用 SVN 一段时间了最近在一个项目中我正在使用TFS 对于构建我喜欢在项目输出上附加更新构建版本号我在主页上执行此操作以便它在应用程序上清晰可见由于应用程序可以在多台计算机上运行因此可以方便地了解正在运行的版本我在
用于根据同一行中另一个单元格中的日期自动在 Google 电子表格的单元格中插入特定文本的脚本

我有 ZektorH 在另一个中提供的以下脚本question https stackoverflow com questions 58250884 script to format a range of cells and insert
在 android 中使用 RxJava 和 Retrofit 处理列表

我需要进行几个 api 调用顺序异步其中一些返回列表我的api接口如下 GET users settings Observable
高效查询Hbase

我使用 Java 作为查询 Hbase 的客户端我的 Hbase 表设置如下 ROWKEY HOST EVENT 21 1465435 host hst com clicked 22 1463456 hlo wrld com dragge

高效查询Hbase

高效查询Hbase 的相关文章

随机推荐

热门标签