Hbase-hadoop集成中datanode、regionserver的作用

2023-12-24

根据我的理解，行被插入到 HBase 表中，并作为区域存储在不同的区域服务器中。因此，区域服务器存储数据

类似地，就 Hadoop 而言，数据存储在 hadoop 集群中的数据节点中。

假设我在 Hadoop 1.1.1 之上配置了 HBase 0.90.6，如下所示

2 个节点 - 主节点和从节点

Master node acts as,
- Hadoop - Namenode、Secondary Namenode、作业跟踪器、数据节点、任务跟踪器
- HBase - Master、RegionServer 和 Zookeeper。
Slave node acts as,
- Hadoop 数据节点和任务跟踪器
- HBase 区域服务器

根据我的说法，如果表数据存储在区域服务器中；那么数据节点和区域服务器的作用是什么？

数据节点存储数据。区域服务器本质上缓冲 I/O 操作；数据永久存储在HDFS（即数据节点）上。我认为将区域服务器放在“主”节点上不是一个好主意。

以下是区域管理方式的简化图：

您有一个运行 HDFS（NameNode + DataNode）的集群，复制因子为 3（每个 HDFS 块被复制到 3 个不同的 DataNode）。

您在与 DataNode 相同的服务器上运行 RegionServer。当写请求到达 RegionServer 时，它首先将更改写入内存并提交日志；然后在某个时刻，它决定将更改写入 HDFS 上的永久存储。这就是数据局部性发挥作用的地方：由于您在同一服务器上运行 RegionServer 和 DataNode，因此文件的第一个 HDFS 块副本将写入同一服务器。另外两个副本将被写入其他 DataNode。因此，为该区域提供服务的 RegionServer 几乎总是可以访问数据的本地副本。

如果 RegionServer 崩溃或 RegionMaster 决定将区域重新分配给另一个 RegionServer（以保持集群平衡）怎么办？新的 RegionServer 将被迫首先执行远程读取，但一旦执行压缩（将更改日志合并到数据中） - 新的文件将由新的 RegionServer 写入 HDFS，并在 RegionServer 上创建本地副本（再次强调，因为 DataNode 和 RegionServer 运行在同一台服务器上）。

注意：如果 RegionServer 崩溃，之前分配给它的 Region 将被重新分配给多个 RegionServer。

好读物：

Tom White，《Hadoop，权威指南》对 HDFS 架构有很好的解释。不幸的是，我没有阅读原始的 Google GFS 论文，所以我无法判断它是否容易理解。
谷歌大表 http://research.google.com/archive/bigtable-osdi06.pdf文章。 HBase 是 Google BigTable 的实现，我发现本文中的架构描述是最容易理解的。

以下是 Google Bigtable 和 HBase 实现之间的命名差异（来自 Lars George，“HBase，权威指南”）：

HBase-Bigtable
地区 - 平板电脑
RegionServer - 平板电脑服务器
冲洗 - 轻微压实
次要压缩 - 合并压缩
主要压实 - 主要压实
预写日志-提交日志
HDFS-GFS
Hadoop MapReduce - MapReduce
MemStore-内存表
HFile - SSTable
动物园管理员 - 胖乎乎的

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

Hbase

Hbase-hadoop集成中datanode、regionserver的作用的相关文章

遍历 ArrayWritable - NoSuchMethodException

我刚刚开始使用 MapReduce 并且遇到了一个奇怪的错误我无法通过 Google 回答该错误我正在使用 ArrayWritable 制作一个基本程序但是当我运行它时在Reduce过程中出现以下错误 java lang Runti
hadoop中reducer的数量

我正在学习hadoop 我发现减速器的数量非常令人困惑 1 reducer的数量与partition的数量相同 2 reducer 的数量是 0 95 或 1 75 乘以节点数每个节点的最大容器数 3 减速机数量设定为mapred re
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
Hive - 线程安全的自动递增序列号生成

我遇到一种情况需要将记录插入到特定的 Hive 表中其中一列需要是自动递增的序列号即在任何时间点都必须严格遵循 max value 1 规则记录从许多并行的 Hive 作业插入到这个特定的表中这些作业每天每周每月批量运行现在
伪分布式模式下的 Hadoop。连接被拒绝

P S 请不要将此标记为重复 Hi 我一直在尝试以伪分布式模式设置和运行 Hadoop 当我运行 start all sh 脚本时我得到以下输出 starting namenode logging to home raveesh Hado
在映射器的单个输出上运行多个减速器

我正在使用地图缩减实现左连接功能左侧有大约 6 亿条记录右侧有大约 2300 万条记录在映射器中我使用左连接条件中使用的列来创建键并将键值输出从映射器传递到减速器我遇到性能问题因为两个表中的值数量都很高的映射器键很少例如分别
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
猪的组连接等效吗？

试图在 Pig 上完成这个任务寻找 MySQL 的 group concat 等效项例如在我的表中我有以下内容 3fields userid clickcount pagenumber 155 2 12 155 3 133 155
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
无法在 Hadoop Map-Reduce 作业中加载 OpenNLP 句子模型

我正在尝试将 OpenNLP 集成到 Hadoop 上的 Map Reduce 作业中从一些基本的句子分割开始在地图函数中运行以下代码 public AnalysisFile analyze String content InputS
如何直接将一个mapper-reducer的输出发送到另一个mapper-reducer而不将输出保存到hdfs中

问题最终解决检查底部的我的解决方案最近我尝试运行 Mahout in Action 的第 6 章列表 6 1 6 4 中的推荐示例但我遇到了一个问题我用谷歌搜索但找不到解决方案问题是我有一对映射器减速器 public fina
Sqoop 导出分区的 Hive 表

我在尝试导出分区的 Hive 表时遇到了一些问题这是否完全受支持我尝试用谷歌搜索并找到一张 JIRA 票证 sqoop export connect jdbc mysql localhost testdb table sales exp
Hadoop 上的 Sqoop：NoSuchMethodError：com.google.common.base.Stopwatch.createStarted() [重复]

这个问题在这里已经有答案了我在 Google Cloud DataProc 上的 hadoop 上运行 sqoop 以通过 Cloud SQL 代理访问 postgresql 但遇到 Java 依赖项错误 INFO First Cloud
是否可以使用 Java 读写 Parquet，而不依赖 Hadoop 和 HDFS？

我一直在寻找这个问题的解决方案在我看来如果不引入对 HDFS 和 Hadoop 的依赖就无法在 Java 程序中嵌入读写 Parquet 格式它是否正确我想在 Hadoop 集群之外的客户端计算机上进行读写我开始对 Apache
无法通过 Hbase 客户端从 Titan 连接到 Google Bigtable

我正在尝试使用 Hadoop 2 HBase 1 0 2 客户端连接到 Titan 1 0 0 可在https github com thinkaurelius titan wiki Downloads https github com
在蜂巢中出现错误

当我连接到 ireport 时如果说在 hive shell 中显示表则会出现此错误元数据错误 java lang RuntimeException 无法实例化 org apache hadoop hive metastore Hiv
Hadoop-reducer 如何获取数据？

据我所知映射器为每个减速器生成 1 个分区减速器如何知道要复制哪个分区假设有 2 个节点运行用于字数统计程序的映射器并且配置了 2 个缩减器如果每个映射节点生成 2 个分区并且两个节点中的分区都可能包含相同的单词作为键那么减速
Python 包安装：pip 与 yum，还是两者一起安装？

我刚刚开始管理 Hadoop 集群我们使用 Bright Cluster Manager 直至操作系统级别 CentOS 7 1 然后使用 Ambari 以及适用于 Hadoop 的 Hortonworks HDP 2 3 我不断收到安装
为什么我们需要将外部表移动到托管 Hive 表？

我是 Hadoop 新手正在学习 Hive 在 Hadoop 权威指南第 3 版中第 12 页第428章最后一段我不明白下面关于 HIVE 中外部表的段落一种常见的模式是使用外部表访问存储在 HDFS 中的初始数据集由另一个进

随机推荐

从两列中创建一个元组 - PySpark

我的问题是基于这里的类似问题PySpark 添加一个新列其中包含从列创建的元组 https stackoverflow com questions 44067861 pyspark add a new column with a tupl
有没有计算对数正态均值和方差的Python方法？

我想了解是否有内置的 python 函数来计算对数正态平均值和方差我只需要这些信息然后将其输入scipy stats lognorm用于叠加在直方图之上的图只需使用numpy mean and numpy std似乎不是正确的想法因为
Eclipse 中出现“Java 运行时环境内存不足”消息

当我在 Eclipse 中运行 Java 代码时我收到以下消息 There is insufficient memory for the Java Runtime Environment to continue Native memory
如何将 StringVar 连接到 Python/Tkinter 中的文本小部件？

基本上我希望 Text 小部件的主体在 StringVar 发生变化时发生变化简而言之你不能至少不需要做额外的工作文本小部件不直接支持variable option 如果您想自己完成所有工作可以在变量上设置跟踪以便使文本小部
无法在 AWS Lambda (Python) 中导入模块

我有一个名为的 python 脚本foo py 它有一个 lambda 处理函数定义如下 def handler event context for record in event Records bucket record s3 buc
柯尔莫哥洛夫复杂度近似算法

我正在寻找一种算法可以计算给定输入字符串的柯尔莫哥洛夫复杂度的近似值因此如果 K 是字符串 S 的柯尔莫哥洛夫复杂度并且 t 代表时间那么该函数的行为将如下所示 limit t gt inf K approx t S K 理论上
如何使用 PowerShell cmdlet 对 PowerShell 脚本文件进行完整语法检查

我正在编写一个控制台应用程序来验证 PowerShell 脚本语法我的请求是验证 PowerShell 脚本而不执行该脚本我在下面的 PowerShell 命令中发现了这个命令它可以在不执行脚本的情况下执行语法检查 Get Comma
Self.Type 无法直接转换为 AnyClass 以扩展为 swift 中的 Objective-C 类

我正在尝试创建结构方法来创建具有正确笔尖名称的 UIViewController 以修复 iOS8 默认初始化程序问题为此我添加了扩展 extension UIViewController class func create gt Se
Jquery 选择器中的引号

我读过几个关于类似问题的答案人们总是说单引号和双引号之间没有区别问题是我有一小行代码似乎很重要 li data type veg append v 这段代码做了我希望他做的事情在链接末尾放置一个 v 但是这段代码 li data ty
ApacheConnectorProvider：泽西客户端 2.5.1

Ref https jersey java net documentation latest user guide html d0e4337 https jersey java net documentation latest user g
关于游戏循环、tick和实时编程的一些问题

首先我想为我的英语水平道歉因为我是法国人我目前正在使用 LWJGL 用 java 制作实时游戏我有一些关于游戏循环的问题我正在线程中运行渲染例程这是不是一个好主意通常渲染例程相当慢并且不应该减慢更重要的世界更新滴答例程
Xcode 3.1.4 中添加 -Wall 和 -Wextra 的位置

我试图找出在 Xcode 中添加额外警告标志的位置例如 Wall 和 Wextra 我在 Leopard 上使用版本 3 1 4 苹果的文档适用于旧版本如果我按照他们的说明进行操作它会将我带到与他们显示的完全不同的窗口他们还提供了特
Highcharts - 指定堆叠时间序列的顺序

Highcharts 有没有办法指定时间序列的堆叠顺序我发现的唯一方法是在系列出现时订购它们因此如果我有 A B 和 C 系列并且希望通过以下方式订购 B C A然后我将系列添加到B C A顺序使得系列 0 B 系列 1 C 系列
如何从 scala/sbt/slf4j 项目中排除公共日志记录？

我的 scala sbt 项目使用 grizzled slf4j 和 logback 第三方依赖项使用 Apache Commons Logging 对于 Java Maven 我将使用 jcl over slf4j 和 logback c
Android XML：投影被截断

我有一个带有边距的相对布局和一个嵌套在该布局内的浮动操作按钮
如何正确处理 ASP.Net Core 3 Web API 中的多个端点

我有 2 种方法来处理 HTTP GET 请求第一个方法用于int键入输入另一个用于string类型输入 GET api Fighters 5 HttpGet id public async Task
如果我在 MySQL 中存储 int(255) ，最大数量是多少？

我在mysql中使用int 255 作为我的id 这够长吗如果我有大约 1 000 000 条记录谢谢有些东西可能只是将其转换为int 11 为你因为你不能在一个字符中包含 255 个可见数字int 最大值将为2147483647
在 asp.net mvc 2.0 中使用 Html.DropDownListFor 助手时如何更改 id 值？

我有这样的部分观点现在您可以创建新产品并编辑现有产品编辑和创建都使用相同的形式加载时创建位于主页上编辑会在 jQuery UI 模型对话框中弹出并呈现新的部分视图因此就页面而言我有两个具有相同 id 的下拉框这很糟糕因为它
向下滚动到页面图像时是否能够部分加载页面图像，或者只是效果？

我在一些网站上注意到例如http mashable com http mashable com当您打开页面并尝试滚动它时它似乎在您到达它时加载图像我不知道这是否只是闪烁效果或者它确实是为了减少滚动到它之前的图像负载这是一个帮助您入
Hbase-hadoop集成中datanode、regionserver的作用

根据我的理解行被插入到 HBase 表中并作为区域存储在不同的区域服务器中因此区域服务器存储数据类似地就 Hadoop 而言数据存储在 hadoop 集群中的数据节点中假设我在 Hadoop 1 1 1 之上配置了 HBas

Hbase-hadoop集成中datanode、regionserver的作用

Hbase-hadoop集成中datanode、regionserver的作用 的相关文章

随机推荐

热门标签

Hbase-hadoop集成中datanode、regionserver的作用的相关文章