HDFS DataNode高密度存储机型的探索尝试

2023-11-17

前言

随着公司业务的发展，我们需要存储越来越庞大的数据来支撑公司业务的发展。这里就涉及到了数据存储能力的问题，需要存储的数据越多，其实意味着我们需要更多的机器来扩增HDFS集群存储的总capacity。但是机器数量的变多另外一方面带来的则是机器费用成本的巨大开销。我们如何在保证机器开销前提下，最大程度提升单机器的存储能力，这个就成为了一个集群维护人员需要思考和解决的问题。鉴于这个出发点，笔者最近在研究调研新一代具有更高存储能力的机型，这期间笔者做了大量的场景设置和性能测试来判断此机型是否能达到集群的要求。本文笔者来聊聊这方面的内容。

存储新机型的选型

首先，存储新机型引入的缘由上面已经提及过，是出于机器硬件方面的成本考虑的。因为本身公司内部HDFS集群的机器数量已经达到一个相当大的规模量级，每年这方面的开销已经相当巨大。随着集群数据的进一步扩增，我们考虑的下一个方案是通过增大机器磁盘的存储来提升集群的总磁盘能力而不是通过加原有机器的方式来。

目前在我们集群中主要使用的有2类存储机型：12(盘数)*5T以及12 * 10T的机型。这两种机型目前也已经渐渐无法满足于我们集群的要求。于是我们在调研尝试选择另外一种更大存储能力的机型，在初步机型的选择上，有下面两类方向：

方案一，盘数不变，大幅提升单盘存储空间，比如将12* 10T机型，增大到12*20T的机器。
方案二，单盘存储不变，盘数变多，比如24（盘） * 10T。

上面两种方式单论总capacity来看，他们的总capacity其实是一样的。那么这个时候我们考虑的就是哪种方式对系统服务的影响最小了。在我们的使用场景里，这些

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

HDFS DataNode高密度存储机型的探索尝试的相关文章

Oozie SSH 操作

Oozie SSH 操作问题 Issue 我们正在尝试在集群的特定主机上运行一些命令我们为此选择了 SSH Action 我们面对这个 SSH 问题已经有一段时间了这里真正的问题可能是什么请指出解决方案 logs AUTH FAILE
获取 emr-ddb-hadoop.jar 将 DynamoDB 与 EMR Spark 连接

我有一个 DynamoDB 表需要将其连接到 EMR Spark SQL 才能对该表运行查询我获得了带有发行标签 emr 4 6 0 和 Spark 1 6 1 的 EMR Spark Cluster 我指的是文档使用 Spark 分
如何在 Hadoop 中将 String 对象转换为 IntWritable 对象

我想转换String反对IntWritableHadoop 中的对象任何过程都可以进行转换 IntWritable value new IntWritable Integer parseInt someString 并处理以下可能性par
如何使用 Amazon 的 EMR 在 CLI 中使用自定义 jar 指定 mapred 配置和 java 选项？

我想知道如何指定mapreduce配置例如mapred task timeout mapred min split size等等当使用自定义 jar 运行流作业时当我们使用 ruby 或 python 等外部脚本语言运行时我们可以使
hive 从两个数组创建映射或键/值对

我有两个具有相同数量值的数组它们映射为 1 1 我需要从这两个数组创建一个键值对或映射键值任何想法或提示都会有帮助当前表结构 USA WEST NUMBER Street City 135 Pacific Irvine USA
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数

我有一个文件夹里面有 14 个文件我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
运行时异常：java.lang.NoSuchMethodException：tfidf$Reduce.()

如何解决这个问题 tfidf是我的主类为什么运行jar文件后会出现这个错误 java lang RuntimeException java lang NoSuchMethodException tfidf Reduce
猪的组连接等效吗？

试图在 Pig 上完成这个任务寻找 MySQL 的 group concat 等效项例如在我的表中我有以下内容 3fields userid clickcount pagenumber 155 2 12 155 3 133 155
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
名称节点处于安全模式

我提到了这些问题名称节点处于安全模式无法离开 https stackoverflow com questions 15803266 name node is in safe mode not able to leave and SafeM
Spark 写入 hdfs 无法使用 saveAsNewAPIHadoopFile 方法

我在 CDH 5 2 0 上使用 Spark 1 1 0 并试图确保我可以读取和写入 hdfs 我很快意识到 textFile 和 saveAsTextFile 调用旧的 api 并且似乎与我们的 hdfs 版本不兼容 def testHD
Talend 和 Apache Spark？

我对 Talend 和 Apache Spark 在大数据生态系统中的定位感到困惑因为 Apache Spark 和 Talend 都可以用于 ETL 有人可以用一个例子解释一下吗 Talend 是一种基于工具的大数据方法通过内置组件支
从 HDFS 传出文件

我想将文件从 HDFS 传输到另一台服务器的本地文件系统该服务器不在 hadoop 集群中而是在网络中我本可以这样做 hadoop fs copyToLocal
hive 添加分区语句忽略前导零

我在 hdfs 上有文件夹 user test year 2016 month 04 dt 25 000000 0 需要将上面的分区路径添加到test table 命令 ALTER TABLE test ADD IF NOT EXISTS
无法验证 serde：org.openx.data.jsonserde.jsonserde

我编写了这个查询来在配置单元上创建一个表我的数据最初是 json 格式所以我已经下载并构建了 serde 并添加了它运行所需的所有 jar 但我收到以下错误 FAILED Execution Error return code 1 fr
Hadoop Windows 设置。运行 WordCountJob 时出错：“任何本地目录中都没有可用空间”

我正在按照此视频教程尝试在我的计算机上设置 hadoop 如何在 Windows 10 上安装 Hadoop https www youtube com watch v zujpglKP0Nw 我已经成功设置它从 sbin 目录执行 st
运行 Sqoop 导入和导出时如何找到最佳映射器数量？

我正在使用 Sqoop 版本 1 4 2 和 Oracle 数据库运行 Sqoop 命令时例如这样 sqoop import fs

随机推荐

Android fragment间的通讯

1 使用FragmentPagerAdapter情况下 param viewpagerId viewpager id eg R id vp param position fragment 的位置 return private Fragmen
linux线程内存开销

1 首先是线程自己栈程序没设置过就是默认的 ulimit s 中的值现在一般都是10240 单位KB 2 跟版本有关是否有 glibc 的 malloc per thread arenas 特性有了这个特性设置不好一个新线程要
2003 - Cant't connect to MySQL server on 'ip'(10060 "Unknown error")

问题描述今天在搭建服务器之后安装好MySQL 启动成功并且创建远程连接用户用户名和密码都正确使用Navicat远程连接抛出如下错误 2003 Cant t connect to MySQL server on 192 168 13
Go module的介绍及使用

Go1 1 1版本发布 2018 08 24发布已经过去几天从官方的博客中看到有两个比较突出的特色一个就是今天讲的module 模块概念目前该功能还在试验阶段有些地方还需要不断的进行完善在官方正式宣布之前打算不断修正这种支持
牛客网：美团2021校招笔试-编程题(通用编程试题,第10场）

某比赛已经进入了淘汰赛阶段已知共有n名选手参与了此阶段比赛他们的得分分别是a 1 a 2 a n 小美作为比赛的裁判希望设定一个分数线m 使得所有分数大于m的选手晋级其他人淘汰但是为了保护粉丝脆弱的心脏小美希望晋级和淘汰的人数均在
Vivido添加pynq-Z2开发板

一下载pynq z2开发板文件下载地址 https www tulembedded com FPGA ProductsPYNQ Z2 html 二将下载的文件解压到vivado安装的位置如果boards目录下面没有boards fi
软件测试自动化UI框架之生成测试报告

设置报告自动化测试最后的运行结果要以报告的形式呈现报告的格式是web端网页需要引入第三方库不是唯一的有很多一般一个公司统一用一个 1 引入自动生成测试框架报告 2 创建测试报告生成文件夹 reports 3 写代码框架的入口文
UE4开发七：UE4打包

一使用UFE打包 UFE Unreal Frontend 虚幻前端简化加快游戏开发及测试任务的工具它可以用来准备游戏构建将游戏部署到设备上并进行启动测试版本 4 18为例注意 UE4官方文档原话是在UE4编辑器中启动UFE或者P
java并发编程笔记（四）--JMM内存模型

1 计算机结构输入设备就是我们的鼠标键盘存储器对应的就是我们的内存缓存运算器和控制器共同组成了cpu 而输出设备就比如显示屏打印机我们重点来聊一下缓存 2 缓存其实当我们说计算机运行效率低下速度慢往往不是cpu的锅
Qt: QStringList去除重复元素

项目中有个需求有一个Qt字符串列表里面有一些元素是重复的要求去除只留下不重复的元素方法如下 QStringList distin QStringList list A B C D B B E B E C for int i 0 i
Redis(三)

一 SpringBoot与Redis集成 1 引入依赖
数组去重--根据ID去除数组中重复的数据

根据ID去除数组中重复的数据 let data id 1 name 你好 id 1 name 你好 let obj let peon data reduce item index gt obj index id obj index id t
使用js完成定时弹出广告设置
[485]python识别验证码系列3(基于机器学习)

基于python语言的tensorflow的端到端的字符型验证码识别 1 Abstract 验证码 CAPTCHA 的诞生本身是为了自动区分自然人和机器人的一套公开方法但是近几年的人工智能技术的发展传统的字符验证已经形同虚设
Java系列笔记(3) - Java 内存区域和GC机制

目录 Java垃圾回收概况 Java内存区域 Java对象的访问方式 Java内存分配机制 Java GC机制垃圾收集器 Java垃圾回收概况 Java GC Garbage Collection 垃圾收集垃圾回收机制是Java与C
Ubuntu云原生环境安装，docker+k8s+kubeedge（亲测好用）

docker安装步骤 Linux 一移除以前docker相关包 sudo apt get autoremove docker docker ce docker engine docker io containerd runc 二设置存储
概率与计算机论文,概率归纳逻辑分析论文

摘要从穆勒等人对或然性的探讨经耶方斯对概率归纳逻辑的开创到卡尔纳普代表的现代概率归纳逻辑体系考察了概率归纳逻辑的发展历程从中揭示其兴起的原因并分析现代归纳逻辑发展的一些新趋势关键词概率归纳逻辑概率论概率归纳逻辑旨在以数
字符串应用-实现KMP匹配算法

题目描述给定一个主串S和子串P 使用KMP算法查找子串P在主串S中存在的位置若子串P在主串S中存在则输出与子串P中第一字符相等的字符在主串S中的序号若不存在则输出 no 程序输入格式主串S 子串P 程序输出格式输出与子串P中第一
Linux三剑客之awk命令详解

目录一 awk常见用法二案例 2 1 awk中 F的使用 2 2 awk中几个特殊的内部变量用法三实战案例一 awk常见用法通常情况下awk所使用的命令格式如下其中单引号家伙是那个大括号用于设置对于数据进行的处理动作
HDFS DataNode高密度存储机型的探索尝试

前言随着公司业务的发展我们需要存储越来越庞大的数据来支撑公司业务的发展这里就涉及到了数据存储能力的问题需要存储的数据越多其实意味着我们需要更多的机器来扩增HDFS集群存储的总capacity 但是机器数量的变多另外一方面带来的则是

HDFS DataNode高密度存储机型的探索尝试

前言

存储新机型的选型

HDFS DataNode高密度存储机型的探索尝试 的相关文章

随机推荐

热门标签

HDFS DataNode高密度存储机型的探索尝试的相关文章