HBase分布式架构处理大数据量（高并发和实时处理）

2023-11-08

先来了解下Hadoop的简单原理：

(一) HDFS主要是用于做什么的？

HDFS（Hadoop Distributed File System）分布式文件管理系统、是Hadoop项目的核心子项目，是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需求而开发的，可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储，为超大数据集（Large Data Set）的应用处理带来了很多便利。

(二) HDFS的优缺点比较

HDFS 的优点：

1、高容错性

1)数据自动保存多个副本。它通过增加副本的形式，提高容错性

2)某一个副本丢失以后，它可以自动恢复，这是由 HDFS 内部机制实现的，我们不必关心。

2、适合批处理

1)它是通过移动计算而不是移动数据

2)它会把数据位置暴露给计算框架。

3、适合大数据处理

1)处理数据达到 GB、TB、甚至PB级别的数据。

2)能够处理百万规模以上的文件数量，数量相当之大。

3)能够处理10K节点的规模

4、流式文件访问

1)一次写入，多次读取。文件一旦写入不能修改，只能追加。

2)它能保证数据的一致性。

5、可构建在廉价机器上

1)它通过多副本机制，提高可靠性。

2)它提供了容错和恢复机制。比如某一个副本丢失，可以通过其它副本来恢复。

HDFS 缺点（不适用适用HDFS的场景）：

1、低延时数据访问

1)比如毫秒级的来存储数据，这是不行的，它做不到。

2)它适合高吞吐率的场景，就是在某一时间内写入大量的数据。但是它在低延时的情况下是不行的，比如毫秒级以内读取数据，这样它是很难做到的。

2、小文件存储

1)存储大量小文件的话，它会占用 NameNode大量的内存来存储文件、目录和块信息。这样是不可取的，因为NameNode的内存总是有限的。

2)小文件存储的寻道时间会超过读取时间，它违反了HDFS的设计目标。

3、并发写入、文件随机修改

1)一个文件只能有一个写，不允许多个线程同时写。

2)仅支持数据 append（追加），不支持文件的随机修改。

（三）HDFS 如何存储数据？

HDFS存储数据架构图：

HDFS 采用Master/Slave的架构来存储数据，这种架构主要由四个部分组成，分别为HDFS Client、NameNode、DataNode和Secondary NameNode。下面我们分别介绍这四个组成部分。

Client：就是客户端。

1、文件切分。文件上传 HDFS 的时候，Client 将文件切分成一个一个的Block，然后进行存储。

2、与 NameNode 交互，获取文件的位置信息。

3、与 DataNode 交互，读取或者写入数据。

4、Client 提供一些命令来管理 HDFS，比如启动或者关闭HDFS。

5、Client 可以通过一些命令来访问 HDFS。

NameNode：就是 master，它是一个主管、管理者。

1、管理 HDFS 的名称空间。

2、管理数据块（Block）映射信息

3、配置副本策略

4、处理客户端读写请求。

DataNode：就是Slave。NameNode 下达命令，DataNode 执行实际的操作。

1、存储实际的数据块。

2、执行数据块的读/写操作。

Secondary NameNode：并非 NameNode 的热备。当NameNode 挂掉的时候，它并不能马上替换 NameNode 并提供服务。

1、辅助 NameNode，分担其工作量。

2、定期合并 fsimage和fsedits，并推送给NameNode。

3、在紧急情况下，可辅助恢复 NameNode。

(四) HDFS 如何读取文件？

HDFS 读取文件步骤图：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-e8f91u8s-1652344689309)(https://upload-images.jianshu.io/upload_images/25002343-36b03bc4d3ba679b.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)]

HDFS的文件读取原理，详细解析如下：

1、首先调用FileSystem对象的open方法，其实获取的是一个DistributedFileSystem的实例。

2、DistributedFileSystem通过RPC(远程过程调用)获得文件的第一批block的locations，同一block按照重复数会返回多个locations，这些locations按照Hadoop拓扑结构排序，距离客户端近的排在前面。

3、前两步会返回一个FSDataInputStream对象，该对象会被封装成 DFSInputStream对象，DFSInputStream可以方便的管理datanode和namenode数据流。客户端调用read方法，DFSInputStream就会找出离客户端最近的datanode并连接datanode。

4、数据从datanode源源不断的流向客户端。

5、如果第一个block块的数据读完了，就会关闭指向第一个block块的datanode连接，接着读取下一个block块。这些操作对客户端来说是透明的，从客户端的角度来看只是读一个持续不断的流。

6、如果第一批block都读完了，DFSInputStream就会去namenode拿下一批blocks的location，然后继续读，如果所有的block块都读完，这时就会关闭掉所有的流。

（五） HDFS 如何写入文件？

HDFS的文件写入步骤图:

HDFS的文件写入原理详细步骤解析：

1.客户端通过调用 DistributedFileSystem 的create方法，创建一个新的文件。

2.DistributedFileSystem 通过 RPC（远程过程调用）调用 NameNode，去创建一个没有blocks关联的新文件。创建前，NameNode 会做各种校验，比如文件是否存在，客户端有无权限去创建等。如果校验通过，NameNode 就会记录下新文件，否则就会抛出IO异常。

3.前两步结束后会返回 FSDataOutputStream 的对象，和读文件的时候相似，FSDataOutputStream 被封装成 DFSOutputStream，DFSOutputStream 可以协调 NameNode和 DataNode。客户端开始写数据到DFSOutputStream,DFSOutputStream会把数据切成一个个小packet，然后排成队列 data queue。

4.DataStreamer 会去处理接受 data queue，它先问询 NameNode 这个新的 block 最适合存储的在哪几个DataNode里，比如重复数是3，那么就找到3个最适合的 DataNode，把它们排成一个 pipeline。DataStreamer 把 packet 按队列输出到管道的第一个 DataNode 中，第一个 DataNode又把 packet 输出到第二个 DataNode 中，以此类推。

5.DFSOutputStream 还有一个队列叫 ack queue，也是由 packet 组成，等待DataNode的收到响应，当pipeline中的所有DataNode都表示已经收到的时候，这时akc queue才会把对应的packet包移除掉。

6.客户端完成写数据后，调用close方法关闭写入流。

7.DataStreamer 把剩余的包都刷到 pipeline 里，然后等待 ack 信息，收到最后一个 ack 后，通知 DataNode 把文件标示为已完成。

到这里想必大家对Hadopp有了一定的了解了，接下来就是Hbase框架的使用了，小伙伴们是不是很期待啊

不过在此之前，你可以先了解 Hadoop生态系统，若想运行HBase，则需要先搭建好Hadoop集群环境，可以参考此文搭建5个节点的hadoop集群环境（CDH5）。

好了，让我们来学习HBase吧！

HBase简介

HBase的发展史

2006年底由PowerSet 的Chad Walters和Jim Kellerman 发起，2008年成为Apache Hadoop的一个子项目。现已作为产品在多家企业被使用，如：WorldLingo/Streamy.com/OpenPlaces/Yahoo!

Hbase到底是什么

HBase是一种构建在HDFS之上的分布式、面向列的存储系统。在需要实时读写随机访问超大规模数据集时，可以使用HBase。

尽管已经有许多数据存储和访问的策略和实现方法，但事实上大多数解决方案，特别是一些关系类型的，在构建时并没有考虑超大规模和分布式的特点。许多商家通过复制和分区的方法来扩充数据库使其突破单个节点的界限，但这些功能通常都是事后增加的，安装和维护都和复杂。同时，也会影响RDBMS的特定功能，例如联接、复杂的查询、触发器、视图和外键约束这些操作在大型的RDBMS上的代价相当高，甚至根本无法实现。

HBase从另一个角度处理伸缩性问题。它通过线性方式从下到上增加节点来进行扩展。HBase不是关系型数据库，也不支持SQL，但是它有自己的特长，这是RDBMS不能处理的，HBase巧妙地将大而稀疏的表放在商用的服务器集群上。

HBase 是Google Bigtable 的开源实现，与Google Bigtable 利用GFS作为其文件存储系统类似， HBase 利用Hadoop HDFS 作为其文件存储系统；Google 运行MapReduce 来处理Bigtable中的海量数据， HBase 同样利用Hadoop MapReduce来处理HBase中的海量数据；Google Bigtable 利用Chubby作为协同服务， HBase 利用Zookeeper作为对应。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

HBase分布式架构处理大数据量（高并发和实时处理）的相关文章

Java，将 null 分配给对象和仅声明之间有什么区别

之间有什么区别 Object o null and Object o 仅声明有人可以回答我吗这取决于您声明变量的范围例如局部变量没有default values在这种情况下你将不得不分配null手动在这种情况下实例变量分配 nul
我们如何测试我们的 Java UI？

我们正在寻找记录和回放类型的测试工具来自动化我们的一些 UI 功能测试我们已经研究了从 Silke 到 QTP 的大多数常见嫌疑但没有一个起作用当需要右键单击才能从右键单击菜单中选择某些内容时或者当您必须在网格的下拉列表中选择一个值
Java 9 中可以使用提前编译吗？

As per JEP 295 http openjdk java net jeps 295 任何 JDK 模块类或用户代码的 AOT 编译都是实验性的 JDK 9 中不支持要使用 AOT 化的 java base 模块用户必须编译该模
在 Java 中填充布尔数组

作为一名相当新手的 Java 程序员我给自己设定了一个艰巨的挑战尝试编写一个简单的文本冒险不出所料我已经遇到了困难我试图为我的 Location 类提供一个属性来存储它包含的退出我为此使用了一个布尔数组本质上保存代表每个出口的
Java byte[] 与 String 之间的转换

为什么这个junit测试失败了 import org junit Assert import org junit Test import java io UnsupportedEncodingException public class T
Jodatime 日期格式

是否可以格式化 JodaTime 日期这是代码 private static LocalDate priorDay LocalDate date1 do date1 date1 plusDays 1 while date1 getDayO
MongoDB：尝试从 JSON 读取 Long 导致 java.lang.Integer 无法转换为 java.lang.Long

我有一个代码可以从 MongoDB 读取特定格式的数据我需要测试一下为此我使用要测试的数据创建一个 JSON id ObjectId 57552e32e4b0839ede67e0af serial 574000690 startDat
JSON 对象数组转 Java POJO

将此 JSON 对象转换为 java 中的类您的 POJO 类中的映射将如何 ownerName Robert pets name Kitty name Rex name Jake This kind of question is ver
在Java中使用BufferedWriter写入文件时监视文件大小？

我正在将一个可能很长的项目列表写入文件我正在写的项目的长度是可变的如果生成的文件大小大于10M 则应将其分成多个文件为了提高性能我目前使用 BufferedWriter 如下所示 final FileOutputStream fos
Spring使用实体管理器实现分页

如何在 Spring hibernate 项目中实现分页以下是代码我将获得 PageRequest 对象并且我想返回项目页面 Repository public class ItemRepository PersistenceCont
perl 和 java 正则表达式功能之间有什么区别？

perl 和 java 在支持哪些正则表达式术语方面有什么区别这个问题仅涉及正则表达式并且特别排除了how可以使用正则表达式即使用正则表达式的可用函数方法以及语言之间的语法差异例如java要求转义反斜杠等特别令人感兴趣的是 j
我们必须将 .class 文件放在 Tomcat 目录中的位置

我必须把我的 class文件在 Tomcat 目录中在我的 Java Complete Reference 书中他们告诉将其放入C Program Files Apache Tomcat 4 0 webapps examples WEB
Java 7 中 Object 和 int 的比较

最近我偶然发现了一个问题让我停下来思考对我来说下面的代码应该总是会触发错误但是当我的一位同事问我为什么 Eclipse 没有显示错误时我无法回答任何问题 class A public static void main String
java.lang.IllegalArgumentException：addChild：子名称“/”不唯一

java lang IllegalArgumentException addChild 子名称不唯一通过在 tomcat webapps 文件夹中启用和禁用 saml 单点登录来替换现有 war 文件时遇到此问题我正在使用 apach
如何告诉 IntelliJ 使用 Java 1.6 JDK 启动 gradle？

一个简单的问题即使经过几个小时的尝试和搜索我也无法弄清楚我安装了 Java 6 和 7 如何告诉 IntelliJ 使用 JDK 版本 1 6 启动 Gradle 构建无论我做什么 IntelliJ 都会以以下方式开始我的 grad
Apache Kafka 是否提供异步订阅回调 API？

我的项目正在将 Apache Kafka 视为老化的基于 JMS 的消息传递方法的潜在替代品为了让这个过渡尽可能的顺利如果替代的排队系统 Kafka 有一个异步订阅机制那就更理想了类似于我们当前项目使用的JMS机制MessageLis
Checkstyle - 方法按修饰符排序

是否可以添加到 checkstyle 规则以按修饰符对类中的方法进行排序我的意思是开头的公共方法和最后的私有方法 MethodsOrderCheck做这个工作检查文档 https www qulice com qulice checks
Python 可以替代 Java 小程序吗？

除了制作用于物理模拟如抛射运动重力等的教育性 Java 小程序之外还有其他选择吗如果你想让它在浏览器中运行你可以使用PyJamas http pyjs org 这是一个 Python 到 Javascript 的编译器和工具集
spring data jpa 过滤 @OneToMany 中的子项

我有一个员工测试实体是父实体并且FunGroup信息子实体这两个实体都是通过employeeId映射我需要一种方法来过滤掉与搜索条件匹配的子实体以便结果仅包含父实体和子实体满足要求员工测试类 Entity name Employe
线程“main”中出现异常 java.lang.UnsatisfiedLinkError: ... \jzmq.dll: 找不到依赖库

我有一个使用 ZMQ 的 java 应用程序我已经能够在我的 Win7 PC 上运行它我将 jzmq dll 放在 jar 可执行文件所在的同一文件夹中然后通过命令 java jar myapp jar 运行它我的下一步是将其移至服

随机推荐

【随机过程】19 - 随机过程的线性预测问题

随机过程的线性预测问题文章目录随机过程的线性预测问题 1 随机过程的估计问题概述 1 1 预测问题 1 2 内插问题 1 3 滤波问题 2 随机过程的可预测性 2 1 新息过程 2 1 1 信息过程的定义 2 1 2 估计的子空间分解
Stable-Diffusion-WebUI 搭建使用教程

Stable Diffusion Webui 是一个基于Gradio库的Stable Diffusion的浏览器界面可以说是AI绘画集合体支持目前主流的开源AI绘画模型例如 NovelAi Stable Diffusion 有了它我
cassandra 可视化工具

cassandramanager razorsql presto devcenter
Qt出现错误 “undefined reference to `vtable for XXXXX.XXX”

使用QT的继承类的时候本来很正常但是添加了 Q OBJECT之后却发现出现了一大堆vtable告警终于找到下面的解决方法了重新qmake 如果新建一个类继承了某个类在这个类的头文件中式没有 Q OBJECT宏声明的如果想使用si
ROS Docker 支持

可供支持的DockerFile文件 kinetic ros core kinetic ros core xenial kinetic ros base kinetic ros base xenial kinetic kinetic robo
BigDecimal返回前端保留所有精度的问题解决

在实际开发中我们有时候对数据精度要求高的时候会使用BigDecimal 但是有时候会发生0 5000返回给前端的时候转成0 5的问题这时我们只需在bean属性中加上 JsonFormat shape JsonFormat Shape ST
机器学习之-利用svm(支持向量机)分类（opencv3）

svm分类算法在opencv3中有了很大的变动取消了CvSVMParams这个类因此在参数设定上会有些改变 opencv中的svm分类代码来源于libsvm int main int argc char argv visual rep
实体类内嵌类

fastjson 解析报错 com alibaba fastjson JSONException create instance error 报错原始代码 public class A undefined private String ha
linux_powershell:文件输入输出重定向/shell写入多行文本到文件中(tee/＞＞)/cat 操作文件/将字符串传递给命令行(＜＜)/流重定向(&＞)

文章目录 linux powershell字符串文件输入输出重定向 shell写入多行文本到文件中 cat 操作文件 references sheet Redirection Commands Note that the file des
I2C之知(五)--I2C总线的10bit地址以及通用广播地址

其实 10bit地址我没用过通用广播地址更没用过通用广播地址应该是在多个mcu之间用i2c进行通信时使用的虽说没用到但还是做了翻译说不定以后有机会用到 10bit地址 10bit的寻址扩展可能寻址的数目有7bit地址和10bit
Android 解决继承ClickableSpan实现富文本点击时,背景色高亮

在继承ClickableSpan实现富文本点击时背景色高亮默认情况下点击文本后目标文本被选中并高亮通过设置文本高亮色为透明解决 setHighlightColor trans
移植 TencentOS-tiny 实时操作系统（一）

TencentOS tiny 概述闲暇之时移植TencentOS tiny玩玩听说这个系统占用资源比较少好了我们正面了解一下这个RTOS系统本文章有点长需要耐心阅读谢谢各位看官在百忙之中抽出时间来到这里共同学习本人水平
Warning:java: 源值1.5已过时, 将在未来所有发行版中删除 IDEA提示警告解决

IDEA错误提示本机使用jdk1 8 查找问题首先打开File Project Structure 查看如下两个设置发现没有问题都是指的1 8 继续查看Model 噫这里是Language level是5 很明显这里并不对改成8
汇编指令lmm_动画视频角色的LMM神经网络

汇编指令lmm Researchers at Ubisoft have proposed an alternative to the Motion Matching algorithm for automated character ani
centos7安装配置supervisor保姆教程

介绍 Supervisor是一个进程管理工具是由python语言编写基于linux操作系统的一款服务器管理工具用以监控服务器的运行发现问题能立即自动预警及自动重启等功能是一个客户服务器系统服务器端称为supervisord 管
chisel相比verilog优势之一：复用特性

0 绪论世界由于人这个最大的无厘头变量还是比技术本身复杂难懂很多各种技术的兴起与发展总是有其背后的理由的这篇文章是这个系列的第三篇文章主要来说明Chisel比Verilog在某些方面具有优势的理由换句话说为什么要用Chisel
S32DS IDE使用Tips--参考汽车电子expert成长之路

目录一 S32DS for Arm PA PEMicro系列调试器包括以下接口类型 1 如何创建在MCU应用工程中添加SDK 2 如何使用SDK的demo工程 3 如何查看SDK外设组件 Component 的帮助文档 4 S32DS 使
网络--TCP/IP

TCP IP 是供已连接因特网的计算机进行通信的通信协议在 TCP IP 内部 TCP IP不是一个协议而是一个协议族的统称包含一系列用于处理数据通信的协议 TCP 传输控制协议应用程序之间通信 UDP 用户数据包协议应用程序之间
[软件工程]毕业设计选题软件

1 分析文档 1 1软件功能概述本系统由3个功能模块组成分别是学生功能模块教师功能模块教务员功能模块附加一个独立的高级查询模块学生功能 l 学生可以在任何能够连接Internet的计算机登录到毕业设计选题系统中 l 学生可以在选
HBase分布式架构处理大数据量（高并发和实时处理）

先来了解下Hadoop的简单原理一 HDFS主要是用于做什么的 HDFS Hadoop Distributed File System 分布式文件管理系统是Hadoop项目的核心子项目是分布式计算中数据存储管理的基础是基于流数据模式

HBase分布式架构处理大数据量（高并发和实时处理）

HBase分布式架构处理大数据量（高并发和实时处理） 的相关文章

随机推荐

热门标签

HBase分布式架构处理大数据量（高并发和实时处理）的相关文章