HBase如何实现对HDFS的随机访问？

2024-04-11

鉴于HBase是一个数据库，其文件存储在HDFS中，那么它如何实现对HDFS中单个数据的随机访问呢？这是通过什么方法实现的呢？

From Apache HBase 参考指南 http://hbase.apache.org/book/architecture.html#arch.overview.hbasehdfs:

HBase 在内部将您的数据放入 HDFS 上存在的索引“StoreFiles”中，以进行高速查找。有关 HBase 如何实现其目标的更多信息，请参阅第 5 章“数据模型”和本章的其余部分。

浏览这两章并没有揭示这个问题的高级答案。

那么HBase如何实现对HDFS中存储的文件的随机访问呢？

HBase 将数据存储在按其键索引（排序）的 HFile 中。给定随机密钥，客户端可以确定从哪个区域服务器请求该行。区域服务器可以确定从哪个区域检索行，然后通过该区域进行二分搜索以访问正确的行。这是通过有足够的统计数据来了解块的数量、块大小、开始键和结束键来实现的。

例如：一个表可能包含10TB的数据。但是，该表被分成大小为 4GB 的区域。每个区域都有一个开始/结束键。客户端可以获得表的区域列表并确定哪个区域具有其正在查找的键。区域被分成块，以便区域服务器可以通过其块进行二分搜索。块本质上是键、属性、值、版本的长列表。如果您知道每个块的起始键是什么，则可以确定要访问的一个文件，以及开始读取的字节偏移量（块）以查看您在二分搜索中的位置。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

HBase如何实现对HDFS的随机访问？的相关文章

如何将 Jar 文件传递到 OOZIE shell 节点中的 shell 脚本

您好我在 oozie shell 操作工作流程中执行的脚本中运行 java 程序时遇到以下错误 Stdoutput 2015 08 25 03 36 02 636 INFO pool 1 thread 1 ProcessExecute j
HBase：创建多个表或包含多个列的单个表？

什么时候创建多个表而不是创建具有大量列的单个表才有意义据我了解表通常只有几个列族 1 2 每个列族可以支持 1000 多个列当 HBase 似乎在单个表中可能存在大量列时表现良好时什么时候创建单独的表才有意义在回答问题本身之前让
java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.createDirectoryWithMode0

我无法解决这个异常我已经阅读了 hadoop 文档以及我能找到的所有相关的 stackoverflow 问题我的 fileSystem mkdirs 抛出 Exception in thread main java lang Unsat
如何在linux中的hdfs超级组中添加用户？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在研究 hdfs 然后我发现某些内容没有为超级用户执行权限检查如果我的 linux 用户是 sandy 并且我想将 sandy 添加
将文件夹名称添加到输出 Pig Latin

我在 HDFS 中有下一个目录结构 logs folder 2021 03 01 log1 log2 log3 2021 03 02 log1 log2 2021 03 03 log1 log2 日志由文本数据组成数据中没有日期因为它已
如何定义Titan Graph DB Vertex的数据类型？

我正在使用 Titan 和 Blueprint API 创建图形数据表我使用 HBase 作为后端我知道如何定义关键索引的数据类型 Example TitanKey name graph makeType name name dataT
org.apache.hadoop.security.AccessControlException：尝试在 EC2 上使用 Hadoop Java API 通过 s3n URI 访问 S3 存储桶时权限被拒绝

Scenario 我创建一个名为 my role 的 AWS IAM 角色将 EC2 指定为可信实体即使用信任关系策略文档 Version 2012 10 17 Statement Sid Effect Allow Principal
在 Hive 中获取空值使用 REGEX 创建和加载查询

我有一个日志文件我需要在其中使用 REGEX 存储数据我尝试了下面的查询但加载了所有 NULL 值我已经检查了 REGEXhttp www regexr com http www regexr com 它对我的数据工作正常 CRE
HDFS容量：如何阅读“dfsadmin报告”

我使用的是 Hadoop 2 6 0 当我运行 hdfs dfsadmin report 时我得到类似这样的信息简化 Configured Capacity 3 TB Present Capacity 400GB DFS Remaini
远程执行hadoop作业时出现异常

我正在尝试在远程 hadoop 集群上执行 Hadoop 作业下面是我的代码 Configuration conf new Configuration conf set fs default name hdfs server 9000 c
hbase api - 通过行ID列表获取数据行信息

是否可以通过hbase java API通过行id列表获取hbase数据记录例如我有一个已知的 hbase 行 ID 列表 mykey1 myhash1 mykey1 myhash2 mykey1 myhash3 mykey2 myha
Cat 文件与 HDFS 中的模式不匹配？

我正在尝试 cat 与 hadoop HDFS 中的以下模式不匹配的文件 hdfs dfs cat gz 如何捕获所有不以 gz 结尾的文件编辑抱歉但我需要在 Hadoop 中管理文件显然 hdfs 附带的命令非常少编辑2 所有文
将多个前缀行过滤器设置为扫描仪 hbase java

我想创建一台扫描仪它可以为我提供带有 2 个前缀过滤器的结果例如我想要其键以字符串 x 开头或以字符串 y 开头的所有行目前我知道只能使用一个前缀方法如下 scan setRowPrefixFilter prefixFiltet 在
在 Hive 中分解一行 XML 数据

我们将 XML 数据作为名为 XML 的单个字符串列加载到 Hadoop 中我们正在尝试检索数据级别并将其标准化或分解为单行进行处理你知道就像表格一样已经尝试过分解功能但没有得到我们想要的示例 XML
Spark MLLib 存在问题，导致概率和预测对于所有内容都相同

我正在学习如何将机器学习与 Spark MLLib 结合使用目的是对推文进行情感分析我从这里得到了一个情感分析数据集 http thinknook com wp content uploads 2012 09 Sentiment Ana
Couchbase/hadoop 连接器：sqoop 作业失败“找到接口 org.apache.hadoop.mapreduce.TaskAttemptContext，但需要类”

我的配置 CouchBase服务器2 0 Sqoop 1 4 2 针对hadoop版本2 0 0编译堆栈Hadoop CDH4 1 2 我想使用 CouchBase Hadoop 连接器 http www couchbase com de
在 Hadoop 中处理带标头的文件

我想在 Hadoop 中处理很多文件每个文件都有一些头信息后面跟着很多记录每个记录都存储在固定数量的字节中对此有何建议我认为最好的解决方案是编写一个自定义的InputFormat http hadoop apache org co
从 Storm Bolt 将行插入 HBase

我希望能够从分布式非本地 Storm 拓扑将新条目写入 HBase 有一些 GitHub 项目提供以下任一功能 HBase 映射器 https github com ptgoetz storm hbase or 预制风暴螺栓 https
计算 HBase 表中列族的记录数

我正在寻找一个 HBase shell 命令来计算指定列族中的记录数我知道我可以运行 echo scan table name hbase shell grep column family name wc l 然而这将比标准计数命令运行
猪如何过滤不同的对（对）

我是猪的新手我有一个 Pig 脚本它在两个元素之间生成制表符分隔的对每行一对例如 John Paul Tom Nik Mark Bill Tom Nik Paul John 我需要过滤掉重复的组合如果我使用 DISTINCT 我会

随机推荐

Install4j Java最低版本似乎不起作用

我们使用 Install4j 7 0 6 并将 Java 最低版本设置为 10 0 1 我们将 Java 10 0 1 捆绑到媒体文件中当我们用 Java 9 VM 替换附带的 JVM 时我们的应用程序仍然会启动我们是否只是误解了 J
二元运算符“+”不能应用于两个 CGFloat 操作数？

用 Swift 编码并得到上述错误消息是否掩盖了其他内容或者您真的不能添加两个 CGFloat 操作数吗如果不是为什么到底不呢 EDIT 我想要做的代码没有什么特别的有趣的是上面的错误消息 VERBATIM 是 Swift
使用 git bash 时，使用 base-href 进行 Angular-cli 构建也会返回程序文件夹

我正在尝试在 Windows 7 Pro 计算机上的 MINGW64 docker 框中使用 angular cli 构建我的 Angular 项目在 git bash 中我使用的命令是 ng build prod base href
无法使用 JSON 结果将数据呈现到网格列中

我有一家网格商店里面有类似的东西 var gridStore Ext create Ext data Store proxy type ajax actionMethods read POST url getECIAgentWrapper
如何修复“类扩展值未定义不是构造函数或 null”NodeJS

我有 3 个文件结构按以下顺序排列所有这些都包含 1 个类 main js extends events events js extends base base js 我已经研究了这些答案但我的问题似乎与以下人员描述的不同类型错误
为什么我们需要在Hadoop程序中明确设置输出键/值类？

在 Hadoop 权威指南一书中有一个示例程序代码如下 JobConf conf new JobConf MaxTemperature class conf setJobName Max temperature FileInputFo
如何在 Windows 7 中设置 mongoDB 的默认 dbpath？

我刚刚在我的 Windows 机器上安装了 mongoDB MongoDB version Windows 64 bit 2008 R2 release 3 0 4 OS Version Microsoft Windows 7 Ultima
Google 云存储桶的加载时间缓慢

目前我正在从一个网站加载图像谷歌云存储桶我的印象是多区域谷歌云存储桶应该是互联网上加载图像最快的方式之一然而情况似乎并非如此当我比较我的网站与竞争对手的瀑布图像加载时间时比我的好很多我可以做些什么来缩短 Google 云存储图像
Heroku 内置（Touch ID）不起作用，并且没有一次性密码生成器设置

我的 mac 坏了因此我无法再在 heroku 上使用 touchID 来验证自己因此唯一的其他选择是使用一次性密码生成器我什至没有设置它您需要登录并验证才能设置我该怎么办我如何才能访问我的 heroku 帐户 Hero
从 C# 获取 Powershell 错误

Problem 我正在从 c 调用 powershell 命令但是PowerShell命令对象似乎只有属性bool HasErrors这对我没有帮助what我收到的错误这就是我构建 powershell 命令的方式 Library pu
如何在网站上的多个登录字段上使用自动填充

当网页上有两个单独的登录字段时我的浏览器 Google Chrome 假设它们都需要相同的凭据这不是一个有效的假设我希望我的浏览器能够分别存储每个人的凭据
如何将 JavaFX TableView 与 java 记录一起使用？

Records是一个新功能Java 16 https en wikipedia org wiki Java version history Java 16 定义于JEP 395 记录 https openjdk org jeps 395 假
如何在反应中单击按钮将一个组件移动到另一个组件？

您能告诉我如何在反应中单击按钮时将一个组件移动到另一个组件吗我得到了react router js来自 cdn 我不知道如何使用这个 js 我想展示second component on button click of第一个组件这是我的
Delphi MREW 实现对读者有利吗？

是否有 MREW 多读独占写锁的 Delphi 实现它有利于读而不是写我觉得TMultiReadExclusiveWriteSynchronizer http edn embarcadero com article 28258已经受
Java中对象的类型切换

所以我想知道一种在Java中切换有效类型的简单方法如下所示我知道这不能编译但我想要这个功能 public void put Object obj if obj instanceof Integer else if obj instan
JButton 中的图标位置

是否有可能更改 JButton 中的图标图像位置现在看起来是这样的我想将图标移到更左边我尝试更改文本对齐方式但它无法按我想要的方式工作 myButton setHorizontalTextPosition SwingConstant
将有符号整数转换为无符号长整型的最佳方法？

对于 Java 中的某些哈希函数最好将值视为无符号整数例如用于与其他实现进行比较但 Java 仅支持有符号类型我们可以将有符号的int到未签名 long像这样 public static final int BITS PER B
Scrum 故事和幕后特色 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案据我了解 Scrum 待办事项由一系列代表最终用户的故事组成并进一步分解为功能如果是这样的话所有与故事没有真正联系但仍然有用的幕后功
PyQt4、QThread 和打开大文件而不冻结 GUI

我想问如何从磁盘读取大文件并保持 PyQt4 UI 响应不阻塞我已将文件的负载移至 QThread 子类但我的 GUI 线程被冻结有什么建议么我想这一定是GIL的问题但我不知道如何排序编辑我正在使用 GDCM 项目中的 vt
HBase如何实现对HDFS的随机访问？

鉴于HBase是一个数据库其文件存储在HDFS中那么它如何实现对HDFS中单个数据的随机访问呢这是通过什么方法实现的呢 From Apache HBase 参考指南 http hbase apache org book archite

HBase如何实现对HDFS的随机访问？

HBase如何实现对HDFS的随机访问？ 的相关文章

随机推荐

热门标签

HBase如何实现对HDFS的随机访问？的相关文章