基于Hadoop的云盘系统上传和下载效率优化及处理大量小文件的解决方法

2023-11-09

基于任何平台实现的云盘系统，面临的首要的技术问题就是客户端上传和下载效率优化问题。基于Hadoop实现的云盘系统，受到Hadoop文件读写机制的影响，采用Hadoop提供的API进行HDFS文件系统访问，文件读取时默认是顺序、逐block读取；写入时是顺序写入。

一、读写机制　　

首先来看文件读取机制：尽管DataNode实现了文件存储空间的水平扩展和多副本机制，但是针对单个具体文件的读取，Hadoop默认的API接口并没有提供多DataNode的并行读取机制。基于Hadoop提供的API接口实现的云盘客户端也自然面临同样的问题。Hadoop的文件读取流程如下图所示：

使用HDFS提供的客户端开发库，向远程的Namenode发起RPC请求；

Namenode会视情况返回文件的部分或者全部block列表，对于每个block，Namenode都会返回有该block拷贝的datanode地址；

客户端开发库会选取离客户端最接近的datanode来读取block；

读取完当前block的数据后，关闭与当前的datanode连接，并为读取下一个block寻找最佳的datanode；

当读完列表的block后，且文件读取还没有结束，客户端开发库会继续向Namenode获取下一批的block列表。

读取完一个block都会进行checksum验证，如果读取datanode时出现错误，客户端会通知Namenode，然后再从下一个拥有该block拷贝的datanode继续读取。

这里需要注意的关键点是：多个Datanode顺序读取。

其次再看文件的写入机制：

使用HDFS提供的客户端开发库，向远程的Namenode发起RPC请求；

Namenode会检查要创建的文件是否已经存在，创建者是否有权限进行操作，成功则会为文件创建一个记录，否则会让客户端抛出异常；

当客户端开始写入文件的时候，开发库会将文件切分成多个packets，并在内部以"data queue"的形式管理这些packets，并向Namenode申请新的blocks，获取用来存储replicas的合适的datanodes列表，列表的大小根据在Namenode中对replication的设置而定。开始以pipeline（管道）的形式将packet写入所有的replicas中。开发库把packet以流的方式写入第一个 datanode，该datanode把该packet存储之后，再将其传递给在此pipeline中的下一个datanode，直到最后一个 datanode，这种写数据的方式呈流水线的形式。

最后一个datanode成功存储之后会返回一个ack packet，在pipeline里传递至客户端，在客户端的开发库内部维护着"ack queue"，成功收到datanode返回的ack packet后会从"ack queue"移除相应的packet。

如果传输过程中，有某个datanode出现了故障，那么当前的pipeline会被关闭，出现故障的datanode会从当前的 pipeline中移除，剩余的block会继续剩下的datanode中继续以pipeline的形式传输，同时Namenode会分配一个新的 datanode，保持replicas设定的数量。

关键词：开发库把packet以流的方式写入第一个datanode，该datanode将其传递给pipeline中的下一个datanode，知道最后一个Datanode，这种写数据的方式呈流水线方式。

二、解决方案

1.下载效率优化

通过以上读写机制的分析，我们可以发现基于Hadoop实现的云盘客户段下载效率的优化可以从两个层级着手：

1.文件整体层面：采用并行访问多线程（多进程）份多文件并行读取。

2.Block块读取：改写Hadoop接口扩展，多Block并行读取。

2.上传效率优化

上传效率优化只能采用文件整体层面的并行处理，不支持分Block机制的多Block并行读取。

HDFS处理大量小文件时的问题

小文件指的是那些size比HDFS 的block size(默认64M)小的多的文件。如果在HDFS中存储小文件，那么在HDFS中肯定会含有许许多多这样的小文件(不然就不会用hadoop了)。
而HDFS的问题在于无法很有效的处理大量小文件。

任何一个文件，目录和block，在HDFS中都会被表示为一个object存储在namenode的内存中，没一个object占用150 bytes的内存空间。所以，如果有10million个文件，
没一个文件对应一个block，那么就将要消耗namenode 3G的内存来保存这些block的信息。如果规模再大一些，那么将会超出现阶段计算机硬件所能满足的极限。

不仅如此，HDFS并不是为了有效的处理大量小文件而存在的。它主要是为了流式的访问大文件而设计的。对小文件的读取通常会造成大量从
datanode到datanode的seeks和hopping来retrieve文件，而这样是非常的低效的一种访问方式。

大量小文件在mapreduce中的问题

Map tasks通常是每次处理一个block的input(默认使用FileInputFormat)。如果文件非常的小，并且拥有大量的这种小文件，那么每一个map task都仅仅处理了非常小的input数据，
并且会产生大量的map tasks，每一个map task都会消耗一定量的bookkeeping的资源。比较一个1GB的文件，默认block size为64M，和1Gb的文件，没一个文件100KB，
那么后者没一个小文件使用一个map task，那么job的时间将会十倍甚至百倍慢于前者。

hadoop中有一些特性可以用来减轻这种问题：可以在一个JVM中允许task reuse，以支持在一个JVM中运行多个map task，以此来减少一些JVM的启动消耗
(通过设置mapred.job.reuse.jvm.num.tasks属性，默认为1，－1为无限制)。另一种方法为使用MultiFileInputSplit，它可以使得一个map中能够处理多个split。

为什么会产生大量的小文件？

至少有两种情况下会产生大量的小文件

1. 这些小文件都是一个大的逻辑文件的pieces。由于HDFS仅仅在不久前才刚刚支持对文件的append，因此以前用来向unbounde files(例如log文件)添加内容的方式都是通过将这些数据用许多chunks的方式写入HDFS中。
2. 文件本身就是很小。例如许许多多的小图片文件。每一个图片都是一个独立的文件。并且没有一种很有效的方法来将这些文件合并为一个大的文件

这两种情况需要有不同的解决方式。对于第一种情况，文件是由许许多多的records组成的，那么可以通过件邪行的调用HDFS的sync()方法(和append方法结合使用)来解决。或者，可以通过些一个程序来专门合并这些小文件(see Nathan Marz’s post about a tool called the Consolidator which does exactly this).

对于第二种情况，就需要某种形式的容器来通过某种方式来group这些file。hadoop提供了一些选择：

* HAR files

Hadoop Archives (HAR files)是在0.18.0版本中引入的，它的出现就是为了缓解大量小文件消耗namenode内存的问题。HAR文件是通过在HDFS上构建一个层次化的文件系统来工作。一个HAR文件是通过hadoop的archive命令来创建，而这个命令实际上也是运行了一个MapReduce任务来将小文件打包成HAR。对于client端来说，使用HAR文件没有任何影响。所有的原始文件都 visible && accessible（using har://URL）。但在HDFS端它内部的文件数减少了。

通过HAR来读取一个文件并不会比直接从HDFS中读取文件高效，而且实际上可能还会稍微低效一点，因为对每一个HAR文件的访问都需要完成两层index 文件的读取和文件本身数据的读取(见上图)。并且尽管HAR文件可以被用来作为MapReduce job的input，但是并没有特殊的方法来使maps将HAR文件中打包的文件当作一个HDFS文件处理。可以考虑通过创建一种input format，利用HAR文件的优势来提高MapReduce的效率，但是目前还没有人作这种input format。需要注意的是：MultiFileInputSplit，即使在HADOOP-4565的改进(choose files in a split that are node local)，但始终还是需要seek per small file。

* Sequence Files

通常对于“the small files problem”的回应会是：使用SequenceFile。这种方法是说，使用filename作为key，并且file contents作为value。实践中这种方式非常管用。回到10000个100KB的文件，可以写一个程序来将这些小文件写入到一个单独的 SequenceFile中去，然后就可以在一个streaming fashion(directly or using mapreduce)中来使用这个sequenceFile。不仅如此，SequenceFiles也是splittable的，所以mapreduce 可以break them into chunks，并且分别的被独立的处理。和HAR不同的是，这种方式还支持压缩。block的压缩在许多情况下都是最好的选择，因为它将多个 records压缩到一起，而不是一个record一个压缩。

将已有的许多小文件转换成一个SequenceFiles可能会比较慢。但是，完全有可能通过并行的方式来创建一个一系列的SequenceFiles。(Stuart Sierra has written a very useful post about converting a tar file into a SequenceFile — tools like this are very useful).更进一步，如果有可能最好设计自己的数据pipeline来将数据直接写入一个SequenceFile。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

基于Hadoop的云盘系统上传和下载效率优化及处理大量小文件的解决方法的相关文章

HDFS容量：如何阅读“dfsadmin报告”

我使用的是 Hadoop 2 6 0 当我运行 hdfs dfsadmin report 时我得到类似这样的信息简化 Configured Capacity 3 TB Present Capacity 400GB DFS Remaini
Spark 2.0 弃用了“DirectParquetOutputCommitter”，没有它如何生活？

最近我们从 HDFS 上的 EMR gt S3 上的 EMR 启用了一致视图的 EMRFS 迁移我们意识到 Spark SaveAsTable 镶木地板格式写入 S3 的速度比 HDFS 慢约 4 倍但我们发现使用 DirectPa
错误：java.io.IOException：错误值类：类 org.apache.hadoop.io.Text 不是类 Myclass

我的映射器和减速器如下但我遇到了某种奇怪的异常我不明白为什么它会抛出这种异常 public static class MyMapper implements Mapper
java.io.IOException：无法获取 LocationBlock 的块长度

我正在使用 HDP 2 1 对于集群我遇到了以下异常并且 MapReduce 作业因此失败实际上我们定期使用 Flume 版本的数据创建表 1 4 我检查了映射器尝试读取的数据文件但我找不到任何内容 2014 11 28 00 0
HDP 3.1.0.0-78 升级后无法使用 ResourceManager UI 终止 YARN 应用程序

我最近将 HDP 从 2 6 5 升级到 3 1 0 它运行 YARN 3 1 0 并且我无法再使用旧的 8088 cluster apps 或新的 8088 从 YARN ResourceManager UI 终止应用程序 ui2 ind
Hive ParseException - 无法识别“结束”“字符串”附近的输入

尝试从现有 DynamoDB 表创建 Hive 表时出现以下错误 NoViableAltException 88 at org apache hadoop hive ql parse HiveParser IdentifiersParser
Couchbase/hadoop 连接器：sqoop 作业失败“找到接口 org.apache.hadoop.mapreduce.TaskAttemptContext，但需要类”

我的配置 CouchBase服务器2 0 Sqoop 1 4 2 针对hadoop版本2 0 0编译堆栈Hadoop CDH4 1 2 我想使用 CouchBase Hadoop 连接器 http www couchbase com de
是否值得购买 Mahout in Action 以跟上 Mahout 的速度，或者还有其他更好的来源吗？

我目前是一个非常随意的用户阿帕奇马胡特 http mahout apache org 我正在考虑购买这本书象夫在行动 http www manning com owen 不幸的是我很难理解这本书的价值并且认为它是一本曼宁早期访问计划 h
猪如何过滤不同的对（对）

我是猪的新手我有一个 Pig 脚本它在两个元素之间生成制表符分隔的对每行一对例如 John Paul Tom Nik Mark Bill Tom Nik Paul John 我需要过滤掉重复的组合如果我使用 DISTINCT 我会
R+Hadoop：如何从HDFS读取CSV文件并执行mapreduce？

在以下示例中 small ints to dfs 1 1000 mapreduce input small ints map function k v cbind v v 2 MapReduce函数的数据输入是一个名为small ints的
获取 emr-ddb-hadoop.jar 将 DynamoDB 与 EMR Spark 连接

我有一个 DynamoDB 表需要将其连接到 EMR Spark SQL 才能对该表运行查询我获得了带有发行标签 emr 4 6 0 和 Spark 1 6 1 的 EMR Spark Cluster 我指的是文档使用 Spark 分
如何将Hive数据表迁移到MySql？

我想知道如何将日期从 Hive 转移到 MySQL 我看过有关如何将 Hive 数据移动到 Amazon DynamoDB 的示例但没有看到有关如何将 Hive 数据移动到 MySQL 等 RDBMS 的示例这是我在 DynamoDB
Hive“添加分区”并发

我们有一个外部 Hive 表用于处理原始日志文件数据这些文件每小时一次并按日期和源主机名分区目前我们正在使用简单的 python 脚本导入文件这些脚本每小时触发几次该脚本根据需要在 HDFS 上创建子文件夹从临时本地存储复制
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
适用于 Hadoop 的 DynamoDB 输入格式

我必须使用 Hadoop mapreduce 处理保留在 Amazon Dynamodb 中的一些数据我在互联网上搜索 Dynamo DB 的 Hadoop InputFormat 但找不到它我对 Dynamo DB 不熟悉所以我猜测
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
Hive：如何分解嵌入 CSV 文件中的 JSON 列？

从 CSV 文件带有标题和管道分隔符中我得到了以下两个内容其中包含一个 JSON 列内部有一个集合如下所示第一种情况使用没有名称的 JSON 集合 ProductId IngestTime ProductOrders 918
如何跟踪hadoop中哪个数据块在哪个数据节点？

如果复制一个数据块会复制到哪个数据节点是否有任何工具可以显示复制块存在的位置如果您知道文件名则可以通过 DFS 浏览器查找转到您的 namenode Web 界面说浏览文件系统并导航到您感兴趣的文件在页面底部将列出文件中
2n + 1 法定人数是什么意思？

我在描述 HBase 的 Zookeeper 配置时遇到过这个问题但我对这个术语并不熟悉 N 与我的 HBase 集群中的节点数量有关系吗或者我应该在 Zookeeper 集群中使用的节点数量 2f 1是指你所需要的可靠性可用性水平

随机推荐

【elasticsearch】elasticsearch节点异常崩溃问题处理

一前言今天对es集群做扩容节点操作新增了一台节点启动节点后没过15分钟监控报警节点es服务端口异常第一次看日志并没有发现太明显的错误于是并没有做操作直接将该节点重新启动结果不到10分钟时间节点又崩溃了看来得排查下问题
【操作系统】王道考研 p16 调度算法：时间片轮转、优先级调度、多级反馈队列调度算法

视频知识总览时间片轮转 RR Round Robin 常用于分时操作系统更注重响应时间因此此处不计算周转时间算法思想公平地轮流地为各个进程服务让每个进程在一定时间间隔内都可以得到相应算法规则按照各进程到达就绪队列的顺序
LTE上行SC-FDMA 下行采用OFDMA的原因

LTE下行是OFDMASC FDMA Single carrier Frequency Division Multiple Access 单载波频分多址是LTE的上行链路的主流多址SC FDMA是单波载 Single carrier 与O
进程调度的过程以及进程与线程的区别

一什么是进程进程是操作系统对一个正在运行的程序的一种抽象换言之可以把进程看作程序的一次运行过程同时在操作系统内部进程又是操作系统进行资源分配的基本单位注意以上的运行出来的可执行程序这些程序就是进程二那么操作系统是如何
中国移动：《2020年区块链+边缘计算白皮书》 PDF文字版

中国移动 2020年区块链边缘计算白皮书 PDF文字版下载访问密码 168168 中国移动5G联合创新中心与中兴通讯区块链技术与数据安全工业和信息化部重点实验室北京大学新一代信息技术研究院合作共同发布了区块链边缘计算白皮书
低版本Mac OS安装合适xcode的方法

在虚拟机上安装完Mac OS10 14 在Apple Store上准备安装xcode时出现 xcode 不能安装在 Macintosh HD 上因为需要 OS X V10 14 3 或更高版本导致无法安装Xcode 如图解决方法不在
Oracle sql 判断某个字段不等于某个值

看着很简单的一个问题直接写sql select from user where userName 张三但是运行一下就会发现如果userName有null值那null值的记录也查不出来了就是这么神奇正确的sql select f
手机已经开启调试模式还提示This adb server‘s $ADB_VENDOR_KEYS is not setTry ‘adb kill-server‘ if that seems wrong

手机已经开启调试模式还提示This adb server s ADB VENDOR KEYS is not set Try adb kill server if that seems wrong Otherwise check for a
WPS进行分类汇总计算，并且提取统计结果的详细步骤

1 首先选中要进行分类统计的数据 2 选择数据选项 3 然后找到分类汇总选项再次弹出对话框选择按照那一列进行分类汇总并选择统计的计算方法点击确定 5 默认统计结果都会在每一组的下一行点击隐藏明细数据选项即可仅显示统计
java软件工程师工作业绩_java软件工程师的工作描述怎么写

展开全部 1 负责研发62616964757a686964616fe4b893e5b19e31333365656636公司应用软件的模块设计开发和交付 2 负责编码单元测试 3 按照功能组件的详细设计 4 对其他软件工程师的代码进行审核
【网络】nmcli 网络管理工具

目录 nmcli 命令前提重启网络服务重启网卡实例 nmcli输出说明 3种网络配置方法 nmcli的命令参数 Tips ethtool 命令 IP命令添加网卡到配置文件 Linux系统怎么查看网卡的UUID nmcli 命令原
4:Git的树对象

树对象 tree object 它能解决文件名保存的问题就是树对象有自己的名字也允许我们将多个文件组织到一起 Git 以一种类似于 UNIX 文件系统的方式存储内容所有内容均以树对象和数据对象 git 对象的形式存储其中树对象对应
本地Linux服务器安装宝塔面板，并内网穿透实现公网远程登录

文章目录前言 1 安装宝塔 2 安装cpolar内网穿透 3 远程访问宝塔 4 固定http地址 5 配置二级子域名 6 测试访问二级子域名转载自cpolar极点云文章 Linux安装宝塔并实现公网远程登录宝塔面板内网穿透前言宝
【软件测试学习笔记】黑盒测试方法及案例

文章目录一黑盒测试基本概念二黑盒测试的主要目的三优缺点优点缺点四黑盒测试的策略五黑盒测试方法等价类划分分类划分方法原则等价类划分案例边界值分析法原则边界值分析法案例因果图法四种因果关系五种约束
05

1 Harbor简介 Harbor是由VMWare公司开源的容器镜像仓库实际上 Harbor是在Docker Registry上进行相应的企业级扩展从而获得了更加广泛的应用组件功能 harbor adminserver 配置管理中心
CentOS7安装MySQL5.7.26

安装MySQL 在CentOS中默认安装有MariaDB 这个是MySQL的分支但为了需要还是要在系统中安装MySQL 而且安装完成之后可以直接覆盖掉MariaDB 下载并安装MySQL官方的 Yum Repository root l
django添加数据库字段进行数据迁移

1 修改view py里面的变量 2 在model py新增字段 3 打开terminal并将环境切到项目所在环境切换方式为 4 执行命令 python manage py makemigrations backend python ma
Redis（主从复制、哨兵模式、集群）概述及部署

目录引言壹 Redis主从复制一 Redis的高可用二 Redis持久化 1 Redis 提供两种方式进行持久化 2 RDB 持久化三 Redis主从复制 1 Redis主从复制的概念 2 Redis主从复制四 Redis主从复
Linux系统删除文件夹下所有文件

这篇文章来为大家介绍一下如何在 Linux 系统下删除文件当 Linux 系统使用时间过长以后难免会产生一些垃圾文件这些文件除了会占用磁盘空间之外还会降低系统的运行效率所以长时间运行后我们需要及时的清理一下这些垃圾文件 rm 是一个
基于Hadoop的云盘系统上传和下载效率优化及处理大量小文件的解决方法

基于任何平台实现的云盘系统面临的首要的技术问题就是客户端上传和下载效率优化问题基于Hadoop实现的云盘系统受到Hadoop文件读写机制的影响采用Hadoop提供的API进行HDFS文件系统访问文件读取时默认是顺序逐block读

基于Hadoop的云盘系统上传和下载效率优化及处理大量小文件的解决方法

基于Hadoop的云盘系统上传和下载效率优化及处理大量小文件的解决方法 的相关文章

随机推荐

热门标签

基于Hadoop的云盘系统上传和下载效率优化及处理大量小文件的解决方法的相关文章