每秒上千次高并发访问，HDFS优雅的抗住了

2023-10-31

V-xin：ruyuanhadeng获得600+页原创精品文章汇总PDF

目录

一、写在前面

二、问题源起

三、HDFS优雅的解决方案：

（1）分段加锁机制+内存双缓冲机制

（2）多线程并发吞吐量的百倍优化

（3）缓冲数据批量刷磁盘+网络优化

一、写在前面

上篇文章我们已经初步给大家解释了Hadoop HDFS的整体架构原理，相信大家都有了一定的认识和了解。

如果没看过上篇文章的同学可以看一下：《干掉几百行的大SQL，我用Hadoop》这篇文章。

本文我们来看看，如果大量客户端对NameNode发起高并发（比如每秒上千次）访问来修改元数据，此时NameNode该如何抗住？

二、问题源起

我们先来分析一下，高并发请求NameNode会遇到什么样的问题。

大家现在都知道了，每次请求NameNode修改一条元数据（比如说申请上传一个文件，那么就需要在内存目录树中加入一个文件），都要写一条edits log，包括两个步骤：

写入本地磁盘。
通过网络传输给JournalNodes集群。

但是如果对Java有一定了解的同学都该知道多线程并发安全问题吧？

NameNode在写edits log时的第一条原则：

必须保证每条edits log都有一个全局顺序递增的transactionId（简称为txid），这样才可以标识出来一条一条的edits log的先后顺序。

那么如果要保证每条edits log的txid都是递增的，就必须得加锁。

每个线程修改了元数据，要写一条edits log的时候，都必须按顺序排队获取锁后，才能生成一个递增的txid，代表这次要写的edits log的序号。

好的，那么问题来了，大家看看下面的图。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

大数据

Hadoop

面试求职

HDFS

每秒上千次高并发访问，HDFS优雅的抗住了的相关文章

猪如何过滤不同的对（对）

我是猪的新手我有一个 Pig 脚本它在两个元素之间生成制表符分隔的对每行一对例如 John Paul Tom Nik Mark Bill Tom Nik Paul John 我需要过滤掉重复的组合如果我使用 DISTINCT 我会
如何将Hive数据表迁移到MySql？

我想知道如何将日期从 Hive 转移到 MySQL 我看过有关如何将 Hive 数据移动到 Amazon DynamoDB 的示例但没有看到有关如何将 Hive 数据移动到 MySQL 等 RDBMS 的示例这是我在 DynamoDB
hadoop中reducer的数量

我正在学习hadoop 我发现减速器的数量非常令人困惑 1 reducer的数量与partition的数量相同 2 reducer 的数量是 0 95 或 1 75 乘以节点数每个节点的最大容器数 3 减速机数量设定为mapred re
在映射器的单个输出上运行多个减速器

我正在使用地图缩减实现左连接功能左侧有大约 6 亿条记录右侧有大约 2300 万条记录在映射器中我使用左连接条件中使用的列来创建键并将键值输出从映射器传递到减速器我遇到性能问题因为两个表中的值数量都很高的映射器键很少例如分别
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current
Flume将数据从MySQL迁移到Hadoop

请分享您的想法需求是将MySQL db中的数据迁移到Hadoop HBase进行分析数据应该实时或接近实时地迁移 Flume可以支持这个吗有什么更好的方法据我了解 Flume 并不是为此而设计的 Flume 基本上用于读取日志如数
Pig 10.0 - 将元组分组并在 foreach 中合并包

我在用着Pig 10 0 我想在 foreach 中合并包假设我有以下内容visitors alias a b 1 2 3 4 a d 1 3 6 a e 7 z b 1 2 3 我想对第一个字段上的元组进行分组并将包与一组语义合并以获
2n + 1 法定人数是什么意思？

我在描述 HBase 的 Zookeeper 配置时遇到过这个问题但我对这个术语并不熟悉 N 与我的 HBase 集群中的节点数量有关系吗或者我应该在 Zookeeper 集群中使用的节点数量 2f 1是指你所需要的可靠性可用性水平
Hadoop 推测任务执行

在Google的MapReduce论文中他们有一个备份任务我认为这与Hadoop中的推测任务是一样的推测任务是如何实现的当我启动一项推测任务时该任务是从一开始就作为较旧且缓慢的任务开始还是从较旧的任务到达的位置开始如果是这样
Apache hadoop 版本 2.0 与 0.23

Hadoop 的版本和发行版太多让我很困惑我有几个问题 Apache Hadoop 1 x 是从 0 20 205 开始的 Apache Hadoop 2 0 是从 0 22 还是 0 23 开始根据这个blogpost http b
java.lang.ClassNotFoundException：找不到类 org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem

我是 Spark 和 Kubernetes 世界的新手我使用 docker image tool sh 实用程序使用与 Hadoop 3 2 捆绑在一起的官方 Spark 3 0 1 构建了 Spark docker 映像我还为 Jup
hive 添加分区语句忽略前导零

我在 hdfs 上有文件夹 user test year 2016 month 04 dt 25 000000 0 需要将上面的分区路径添加到test table 命令 ALTER TABLE test ADD IF NOT EXISTS
在 PIG 中加载文件时如何忽略“（双引号）？

我的文件中有以下数据 a b 1 2 a b 4 3 a b 3 1 我正在使用以下命令读取此文件 File1 LOAD path using PigStorage as f1 chararray f2 chararray f3 int f
如何直接将一个mapper-reducer的输出发送到另一个mapper-reducer而不将输出保存到hdfs中

问题最终解决检查底部的我的解决方案最近我尝试运行 Mahout in Action 的第 6 章列表 6 1 6 4 中的推荐示例但我遇到了一个问题我用谷歌搜索但找不到解决方案问题是我有一对映射器减速器 public fina
Sqoop 导出分区的 Hive 表

我在尝试导出分区的 Hive 表时遇到了一些问题这是否完全受支持我尝试用谷歌搜索并找到一张 JIRA 票证 sqoop export connect jdbc mysql localhost testdb table sales exp
将 Spark 添加到 Oozie 共享库

默认情况下 Oozie 共享 lib 目录提供 Hive Pig 和 Map Reduce 的库如果我想在 Oozie 上运行 Spark 作业最好将 Spark lib jar 添加到 Oozie 的共享库而不是将它们复制到应用程序

随机推荐

ElementUI浅尝辄止18：Avatar 头像

用图标图片或者字符的形式展示用户或事物信息常用于管理系统或web网站的用户头像在用户账户模块更换头像操作也能看到关于Avatar组件的应用 1 如何使用通过 shape 和 size 设置头像的形状和大小
pyPdf和pyPdf2在合并pdf时的那个异常

当一个pdf文件有多page的时候它将出来见你方法是取直接修改那个文件generic py 1 pyPdf 路径大约在这里 usr lib python2 7 site packages pyPdf generic py if data
Jupyter notebook的cell运行结果输出显示配置

参考 JupyterNotebook 输出窗口的显示效果调整 1 问题描述使用Jupyter notebook时有时候会遇到某个cell的输出行数过长输出显示时Jupyter notebook 会把这些输出给放进了一个带有滚动条的小窗
php指定某个pid运,php 按pid排序并给出深度

arr id gt 1 pid gt 0 name gt name1 id gt 2 pid gt 0 name gt name2 id gt 3 pid gt 0 name gt name3 id gt 4 pid gt 1 name g
五、elasticsearch、kibana环境搭建

一软件准备 jdk 8u251 linux x64 tar gz elasticsearch 6 8 18 tar gz 下载 kibana 6 8 18 linux x86 64 tar gz elasticsearch analysi
SSAS教程（一）——SSAS简介

SSAS全称SQL Server Analysis Services Analysis Services 是在决策支持和商业分析中使用的分析数据引擎它为商业报表和客户端应用程序提供了企业级语义数据模型比如Power BI Excel R
自定义Flink消费和生产Kafka消息（消费时Schema、生产时Key&Value&分区）

当我们在消费Kafka数据时比较常用的是SimpleStringSchema 我个人比较喜欢用的是JSONKeyValueDeserializationSchema 上述两个API可以完成绝大多数的开发场景但是但遇到个别的特殊场景时我
Qt——加载qss文件简单用法

1 新建后缀名为 qss的通用文件添加需要实现的样式代码 2 在资源文件中添加刚刚新建的 qss文件 3 main函数添加以下代码 int main int argc char argv QApplication a argc argv
用服务器怎么修改奥的斯的速度,奥的斯服务器使用指南-20210412074643.pdf-原创力文档...

OTIS电梯电脑软件画面 1 2 com com com com 3 4 Disp Ent M 7 8 9 state D E F call Test F 4 5 6 Disp A sel B 开始 In out S 1 2 3 ON U
texture和sprite使用上的区别

1 什么情况下使用Texture 当图片过大不适合合成图集的时候可以使用Texture 此时要尽量的保证图片的宽高是2的N次方使用的地方少当图片为2的N次方且出现的频率不高时可以使用Texture 例如游戏的背景和Logo 需要
gzip: stdin: unexpected end of file Linux解压文件出错

root localhost jdk1 8 tar zxvf jdk 8u161 linux x64 tar gz jdk1 8 0 161 jdk1 8 0 161 javafx src zip gzip stdin unexpected
【计算机网络】HTTP首部详解

HTTP首部详解 HTTP 协议的请求和响应报文中必定包含 HTTP 首部首部内容为客户端和服务端分别处理请求和响应提供所需要的信息对于客户端用户来说这些信息中的大部分内容都无需亲自查看 1 HTTP请求报文 2 HTTP响应报文 3
Java 动态代理简单使用

Java简单的动态代理项目结构 dao包 public interface UserInfodao public boolean LoginCheck String username String password void listAl
mongodb 查询效率_2020年9个好用的MongoDB 图形化界面工具

市场上有许多MongoDB管理工具这些工具可以提高MongoDB开发和管理的效率下面我们就列举一些2020年好用的mongo管理工具 1 NoSQLBooster 用于MongoDB的NoSQLBooster 以前称为MongoBoos
如何将Spotify音乐下载并保存为MP3

Spotify歌曲采用原始的OGG Vorbis格式具有DRM保护可防止您下载并将其分发到其他地方以供欣赏得益于精心设计的DRmare Spotify Music Converter for Mac 您现在可以批量下载Spotify曲
【操作系统】浅谈 Linux 中的中断机制

操作系统浅谈 Linux 中的中断机制参考资料 2015 SP 北京大学 Principles of Operating System 操作系统原理 by 陈向群 p7 p10 认认真真的聊聊中断什么是软中断认认真真的聊聊软中断
iOS实现麦克风捕获和AAC编码

转载地址 http blog csdn net shenyi0106 article details 47004039 在Ios中实现打开和捕获麦克风大多是用的AVCaptureSession这个组件来实现的它可以不仅可以实现音频捕获
调试破解无限dubugger

目标网站上PM2 5实时查询 PM2 5历史数据查询 PM2 5全国城市排名 PM2 5雾霾地图中国空气质量在线监测分析平台真气网首先要确定是否是虚拟机虚拟机https www aqistudy cn 明显的特征虚拟机一般源文件上会
Hutool常用工具类及方法使用

Hutool常用工具类及方法使用依赖注入类型转换工具类 Convert 时间工具类 DateUtil 字符串工具类 StrUtil 身份证验证工具 IdcardUtil 控制台打印 Console 依赖注入
每秒上千次高并发访问，HDFS优雅的抗住了

V xin ruyuanhadeng获得600 页原创精品文章汇总PDF 目录一写在前面二问题源起三 HDFS优雅的解决方案 1 分段加锁机制内存双缓冲机制 2 多线程并发吞吐量的百倍优化 3 缓冲数据批量刷磁盘网络优化一

热门标签