Hadoop namenode 内存使用混乱

2024-04-08

我对 Hadoop namenode 内存计算有一个愚蠢的疑问。在 Hadoop 书籍（明确指南）中提到为

“由于名称节点将文件系统元数据保存在内存中，因此文件系统中文件数量的限制由名称节点上的内存量决定。根据经验，每个文件、目录和块大约需要 150 个字节。因此例如，如果您有 100 万个文件，每个文件占用一个块，则至少需要 300 MB 内存。虽然存储数百万个文件是可行的，但数十亿个文件超出了当前硬件的能力。

由于每次占用一个块，namenode最小内存应该是150MB而不是300MB。请帮助我理解为什么它是300MB

我猜你读过汤姆·怀特的书的第二版。我有第三版，这个参考帖子Hadoop分布式文件系统的可扩展性 http://yahoohadoop.tumblr.com/post/98293678956/scalability-of-the-hadoop-distributed-file-system。在帖子中，我读到了下一句话：

估计显示名称节点使用不到 200 字节来存储单个元数据对象（文件 inode 或块）.

HDFS NameNode中的一个文件是：一个文件inode + 一个块。对两者的每个引用都有 150 个字节。 1.000.000 个文件 = 1.000.000 个索引节点 + 1.000.000 个块引用（在示例中，每个文件占用 1 个块）。

2.000.000 * 150 字节 ~= 300Mb

我把链接放在你可以验证我的论点是否犯了错误。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

Hadoop2

Hadoop namenode 内存使用混乱的相关文章

hadoop中reducer的数量

我正在学习hadoop 我发现减速器的数量非常令人困惑 1 reducer的数量与partition的数量相同 2 reducer 的数量是 0 95 或 1 75 乘以节点数每个节点的最大容器数 3 减速机数量设定为mapred re
如何通过Python访问Hive？

https cwiki apache org confluence display Hive HiveClient HiveClient Python https cwiki apache org confluence display Hi
YARN UNHEALTHY 节点

在我们的 YARN 集群已满 80 的情况下我们看到一些纱线节点管理器被标记为不健康在深入研究日志后我发现这是因为数据目录的磁盘空间已满 90 出现以下错误 2015 02 21 08 33 51 590 INFO org apach
将数据从 oracle 移动到 HDFS，处理并从 HDFS 移动到 Teradata

我的要求是将数据从 Oracle 移至 HDFS 处理HDFS上的数据将处理后的数据移至 Teradata 还需要每 15 分钟执行一次整个处理源数据量可能接近50GB 处理后的数据也可能相同在网上搜索了很多之后我发现 PRARO
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
名称节点处于安全模式

我提到了这些问题名称节点处于安全模式无法离开 https stackoverflow com questions 15803266 name node is in safe mode not able to leave and SafeM
Talend 和 Apache Spark？

我对 Talend 和 Apache Spark 在大数据生态系统中的定位感到困惑因为 Apache Spark 和 Talend 都可以用于 ETL 有人可以用一个例子解释一下吗 Talend 是一种基于工具的大数据方法通过内置组件支
从 Spark 访问 Hdfs 会出现令牌缓存错误 Can't get Master Kerberosprincipal for use as renewer

我正在尝试运行测试 Spark 脚本以便将 Spark 连接到 hadoop 脚本如下 from pyspark import SparkContext sc SparkContext local Simple App file sc t
hive 添加分区语句忽略前导零

我在 hdfs 上有文件夹 user test year 2016 month 04 dt 25 000000 0 需要将上面的分区路径添加到test table 命令 ALTER TABLE test ADD IF NOT EXISTS
无法验证 serde：org.openx.data.jsonserde.jsonserde

我编写了这个查询来在配置单元上创建一个表我的数据最初是 json 格式所以我已经下载并构建了 serde 并添加了它运行所需的所有 jar 但我收到以下错误 FAILED Execution Error return code 1 fr
Hadoop 上的 Sqoop：NoSuchMethodError：com.google.common.base.Stopwatch.createStarted() [重复]

这个问题在这里已经有答案了我在 Google Cloud DataProc 上的 hadoop 上运行 sqoop 以通过 Cloud SQL 代理访问 postgresql 但遇到 Java 依赖项错误 INFO First Cloud
将 Spark 添加到 Oozie 共享库

默认情况下 Oozie 共享 lib 目录提供 Hive Pig 和 Map Reduce 的库如果我想在 Oozie 上运行 Spark 作业最好将 Spark lib jar 添加到 Oozie 的共享库而不是将它们复制到应用程序
无法在 Windows 10 中启动 Spark Master

我是 Spark 新手我正在尝试手动启动 master 在 Windows 10 中使用 MINGW64 当我这样做时 Downloads spark 1 5 1 bin hadoop2 4 spark 1 5 1 bin hadoop2
Mapreduce shuffle 阶段出现内存不足错误

我在运行时遇到奇怪的错误类似字数统计映射缩减程序我有一个包含 20 个从站的 hadoop 集群每个从站都有 4 GB RAM 我将 Map 任务配置为 300MB 堆 Reduce 任务槽为 1GB 我每个节点有 2 个映射槽和 1
Python 包安装：pip 与 yum，还是两者一起安装？

我刚刚开始管理 Hadoop 集群我们使用 Bright Cluster Manager 直至操作系统级别 CentOS 7 1 然后使用 Ambari 以及适用于 Hadoop 的 Hortonworks HDP 2 3 我不断收到安装
覆盖hadoop中的log4j.properties

如何覆盖hadoop中的默认log4j properties 如果我设置 hadoop root logger WARN console 它不会在控制台上打印日志而我想要的是它不应该在日志文件中打印 INFO 我在 jar 中添加了一个
如何有效地将数据从 Kafka 移动到 Impala 表？

以下是当前流程的步骤 Flafka http blog cloudera com blog 2014 11 flafka apache flume meets apache kafka for event processing 将日志写入
使用 Java API 在 Hadoop 中移动文件？

我想使用 Java API 在 HDFS 中移动文件我想不出办法做到这一点 FileSystem 类似乎只想允许在本地文件系统之间移动但我想将它们保留在 HDFS 中并将它们移动到那里我错过了一些基本的东西吗我能想到的唯一方法是从输
ETL informatica 大数据版（非云版）可以连接到 Cloudera Impala 吗？

我们正在尝试在 Informatica 大数据版本不是云版本上进行概念验证我发现我们可能能够使用 HDFS Hive 作为源和目标但我的问题是 Informatica 是否连接到 Cloudera Impala 如果是这样我们是否

随机推荐

计算 R 中的简单保留

对于数据集test 我的目标是找出逐个时期有多少唯一用户从一个时期转移到下一个时期 gt test user id period 1 1 1 2 5 1 3 1 1 4 3 1 5 4 1 6 2 2 7 3 2 8 2 2 9 3 2 1
使用大型数组 - OutOfRam

我有一个算法可以创建两个二维数组如下所示 TYPE TPtrMatrixLine array of byte TCurMatrixLine array of integer TPtrMatrix array of TPtrMatrixL
如何在Python中创建循环[重复]

这个问题在这里已经有答案了这是我的代码 my Sentence input Enter your sentence sen length len my Sentence sen len int sen length while not s
为什么 pandas 在写入 csv 时会删除前导零？

我有一个数据框其中有一列名为 CBG 其中数字作为字符串值 CBG acs total persons acs total housing units 0 010010211001 1925 1013 1 010030114011 266
使用 rand(3) 生成随机数(9)

您有一个函数 rand 3 它生成从 1 到 3 的随机整数使用此函数构造另一个函数 rand 9 它生成从 1 到 9 的随机整数这是一个简单的解决方案 rand 3 3 rand 3 1 您想要这样做的原因是它提供了从 1 到 9
为什么无法将抛出异常的 .what() 方法的输出与字符串进行比较？ [复制]

这个问题在这里已经有答案了代码无法打印True因为由于某种原因比较失败了我不知道它是什么但如果我改变它就会起作用e what Something Bad happened here to e what std string Somet
Delphi XML 遍历

我是德尔福新手我想找到每个主题下的所有作者这是我的 XML
检查 C++ 中的映射是否包含另一个映射中的所有键

我计划在 C 中使用两个类型的映射 std map
如果选项尚不存在，则追加到选择列表

仅当所选选项尚不存在时我才想附加到选择列表目前我有这个 columnsAvailable append
MatLab AccumArray 意外改变顺序

只要我理解accumarray 它的意思是制作输出的第n行 1 在sub中找到n 2 如果n在sub中的m1 m2 m3个元素中 3 将函数应用于m1 m2 m3 val 4 的第一个元素这是输出的第 n 行我有什么地方说错了吗我运
正则表达式返回文件名，删除路径和文件扩展名

我有一个 data frame 其中包含文件名文本列我想返回不带路径或文件扩展名的文件名通常我的文件名已编号但并非必须如此例如 df lt data frame data c a b fileNames c C a bb ccc
如何使用 Javascript 获取 ul li 值

我想使用 javascript 获取警报框中 li 的值即如果我单击 PHP 它应该在警报框中提醒 php 但它显示未定义请任何人帮忙解决这个问题我的代码是
用于获取或设置由运行时参数确定的记录字段的镜头

我有这些类型以及更多 data Player PlayerOne PlayerTwo deriving Eq Show Read Enum Bounded data Point Love Fifteen Thirty deriving E
Objective-C 类别未加载 - 如何调试

我有两个项目RestKit框架 http restkit org 一旦使用 RestKit 框架一个项目可以正常运行但另一个项目却失败了我发现失败的代码是这样的 return anNSString MD5 The MD5method
更改 Chartjs-2 中工具提示的 z 索引

i m running through an issue with react chartjs2 I want somehow to change the z index of the tooltip I can t find a prop
Javascript onchange 验证，以便 :valid 和 :invalid CSS 选择器工作

这似乎是一件简单的事情但我还没有找到任何相关信息我怎样才能使用类似下面的东西 html
身份验证后的第一个对话框立即失败并关闭对话框

我在 iOS 5 上使用最新的 Facebook SDK 我可以使用 SSO 成功验证用户身份然后我尝试共享如下链接 NSString appId NSBundle mainBundle infoDictionary objectForK
在 Blackberry 开发中检查电池状态

我正在为 8900 9000 Blackberry 开发应用程序在我的应用程序中我需要检查电池是否连接到充电器特别是车载充电器我使用以下方法检查电池是否正在充电 if DeviceInfo getBatteryStatus Devi
free() 是否跟随指针？

我确信不是但也许其中有黑魔法所以这是我的问题如果我有这样的结构 struct mystr char strp unsigned int foo 我为它分配了内存并想稍后释放它我必须做吗 free mystr var gt strp
Hadoop namenode 内存使用混乱

我对 Hadoop namenode 内存计算有一个愚蠢的疑问在 Hadoop 书籍明确指南中提到为由于名称节点将文件系统元数据保存在内存中因此文件系统中文件数量的限制由名称节点上的内存量决定根据经验每个文件目录和块大约需要

Hadoop namenode 内存使用混乱

Hadoop namenode 内存使用混乱 的相关文章

随机推荐

热门标签

Hadoop namenode 内存使用混乱的相关文章