检查HDFS块状态

2023-10-29

hadoop集群运行过程中,节点的块状态或者上下线节点时集群都会受影响。

如何查看当前的hdfs的块的状态

hadoop1.x时候的命令,hadoop2.x也可使用:

hadoop fsck /

在hadoop2.0之后,可以使用新命令:

hdfs fsck /
[root@node01 ~]# su hdfs -c "hadoop fsck /"
WARNING: Use of this script to execute fsck is deprecated.
WARNING: Attempting to execute replacement "hdfs fsck" instead.

Connecting to namenode via http://node01:9870/fsck?ugi=hdfs&path=%2F
FSCK started by hdfs (auth:SIMPLE) from /192.168.1.81 for path / at Wed Apr 29 09:19:27 CST 2020

Status: HEALTHY
 Number of data-nodes:	3
 Number of racks:		1
 Total dirs:			1884
 Total symlinks:		0

Replicated Blocks:
 Total size:	387368629 B
 Total files:	85
 Total blocks (validated):	85 (avg. block size 4557277 B)
 Minimally replicated blocks:	85 (100.0 %)
 Over-replicated blocks:	0 (0.0 %)
 Under-replicated blocks:	0 (0.0 %)
 Mis-replicated blocks:		0 (0.0 %)
 Default replication factor:	3
 Average block replication:	3.0
 Missing blocks:		0
 Corrupt blocks:		0
 Missing replicas:		0 (0.0 %)
 Blocks queued for replication:	0

Erasure Coded Block Groups:
 Total size:	0 B
 Total files:	0
 Total block groups (validated):	0
 Minimally erasure-coded block groups:	0
 Over-erasure-coded block groups:	0
 Under-erasure-coded block groups:	0
 Unsatisfactory placement block groups:	0
 Average block group size:	0.0
 Missing block groups:		0
 Corrupt block groups:		0
 Missing internal blocks:	0
 Blocks queued for replication:	0
FSCK ended at Wed Apr 29 09:19:28 CST 2020 in 542 milliseconds


The filesystem under path '/' is HEALTHY

参数说明:

  • Total size : hdfs集群存储大小,不包括复本大小。如:75423236058649 B (字节)。(字节->KB->m->G->TB,75423236058649/1024/1024/1024/1024=68.59703358591014TB)

  • Total blocks (validated) : 总共的块数量,不包括复本。(5363690 (avg. block size 14061818 B) (Total open file blocks (not validated): 148),计算: 14061818 *5363690=75423232588420 集群的容量大小,不包括复本的)

  • Number of data-nodes : datanode的节点数量

  • Number of racks : 机架数量

  • Default replication factor : 默认的复制因子

  • Average block replication : 当前块的平均复制数,如果小 default replication factor,则有块丢失

  • Under-replicated blocks : 正在复制块数量,可采用 hadoop fsck -blocks 解决问题

  • Mis-replicated blocks : 正复制的缺少复制块的数量

  • Missing replicas : 缺少复制块的数量,通常情况下Under-replicated blocks\Mis-- replicated blocks\Missing replicas 都为0,则集群健康,如果不为0,则缺失块了

  • Corrupt blocks : 坏块的数量,这个值不为0,则说明当前集群有不可恢复的块,即数据有丢失了

当下架节点时Under-replicated blocks\Mis-replicated blocks\Missing replicas,这三个参数会显示当前,需要补的块的数量,集群会自动补全,当三个参数都为0时,则集群块的复制块完全了。

  • 检测缺失块
[root@node01 ~]# su hdfs -c "hdfs fsck -list-corruptfileblocks"
Connecting to namenode via http://node01:9870/fsck?ugi=hdfs&listcorruptfileblocks=1&path=%2F
The filesystem under path '/' has 0 CORRUPT files
[root@node01 ~]# su hdfs -c "hdfs fsck / | egrep -v '^\.+$' | grep -v eplica"
Connecting to namenode via http://node01:9870/fsck?ugi=hdfs&path=%2F
FSCK started by hdfs (auth:SIMPLE) from /192.168.1.81 for path / at Wed Apr 29 09:27:20 CST 2020

Status: HEALTHY
 Number of data-nodes:	3
 Number of racks:		1
 Total dirs:			1890
 Total symlinks:		0

 Total size:	387368629 B
 Total files:	85
 Total blocks (validated):	85 (avg. block size 4557277 B)
 Missing blocks:		0
 Corrupt blocks:		0

Erasure Coded Block Groups:
 Total size:	0 B
 Total files:	0
 Total block groups (validated):	0
 Minimally erasure-coded block groups:	0
 Over-erasure-coded block groups:	0
 Under-erasure-coded block groups:	0
 Unsatisfactory placement block groups:	0
 Average block group size:	0.0
 Missing block groups:		0
 Corrupt block groups:		0
 Missing internal blocks:	0
FSCK ended at Wed Apr 29 09:27:20 CST 2020 in 96 milliseconds


The filesystem under path '/' is HEALTHY

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

检查HDFS块状态 的相关文章

  • 使用JAVA将文件从HDFS复制到本地文件系统

    我正在尝试将文件从 HDFS 复制到本地文件系统进行预处理 下面的代码应该根据文档工作 尽管它没有给出任何错误消息并且映射缩减作业运行顺利 但我在本地硬盘驱动器上看不到任何输出 您认为问题出在哪里 谢谢 try Path phdfs inp
  • 【产品兼容认证】WhaleStudio 成功兼容TiDB数据库软件

    平凯星辰和白鲸开源宣布成功完成产品兼容认证 北京 2023年12月27日 平凯星辰 北京 科技有限公司 以下简称平凯星辰 旗下的 TiDB 产品与白鲸开源的 WhaleStudio 已成功完成产品兼容性认证 这一重要合作旨在为全球客户提供更
  • ESM10A 消除对单独 PLC 的需求

    ESM10A 消除对单独 PLC 的需求 ESM10A 可以消除对单独 PLC 的需求 该程序是在 PC 上开发的 然后使用免费提供的简单易用的 EzSQ 软件下载到逆变器 似乎这些改进还不够 日立还在 SJ700 中添加了其他新功能 例如
  • 对中国手机作恶的谷歌,印度CEO先后向三星和苹果低头求饶

    日前苹果与谷歌宣布合作 发布了 Find My Device Network 的草案 旨在规范蓝牙追踪器的使用 在以往苹果和谷歌的生态形成鲜明的壁垒 各走各路 如今双方竟然达成合作 发生了什么事 首先是谷歌安卓系统的市场份额显著下滑 数年来
  • HDFS 对 DC/OS 中机器重启的弹性

    我已在由 10 台 Core OS 机器 3 个主节点 7 个代理节点 组成的 DCOS 集群上安装了 Universe 中的 HDFS 我的 HA HDFS 配置有 2 个名称节点 3 个日志节点和 5 个数据节点 现在 我的问题是 HD
  • 使用带有迭代器的 mapPartition 保存 Spark RDD

    我有一些中间数据需要存储在 HDFS 和本地 我正在使用 Spark 1 6 在 HDFS 作为中间形式中 我正在获取数据 output testDummy part 00000 and output testDummy part 0000
  • 将 Solr HDFS 数据复制到另一个集群

    我有一个 solr 云 v 4 10 安装 位于 Cloudera CDH 5 4 2 HDFS 之上 有 3 个 solr 实例 每个实例托管每个核心的一个分片 我正在寻找一种将 solr 数据从生产集群增量复制到开发集群的方法 有 3
  • 如何在Hadoop中设置数据块大小?改变它有好处吗?

    如果我们可以更改 Hadoop 中的数据块大小 请告诉我如何操作 更改块大小是否有利 如果是 请告诉我为什么以及如何更改 如果没有 请告诉我为什么以及如何 您可以随时更改块大小 除非dfs blocksize参数在 hdfs site xm
  • 全新安装时的 HDFS 空间使用情况

    我刚刚安装了 HDFS 并启动了该服务 并且已使用空间已经超过800MB 它代表什么 hdfs dfs df h Filesystem Size Used Available Use hdfs quickstart cloudera 802
  • 如何在 Amazon EMR 上重新启动 HDFS

    我对 Amazon EMR 集群上的 HDFS 设置进行了一些更改 我想重新启动名称节点和数据节点以使更改生效 我无法在名称节点 主节点 和数据节点上找到任何启 动和停止脚本来执行此操作 应该怎样重启集群呢 在 EMR4 上 在主控主机上运
  • 如何使用pyspark从HDFS读取docx/pdf文件?

    我想使用 pyspark 从 Hadoop 文件系统读取 DOCX PDF 文件 目前我正在使用 pandas API 但在 pandas 中我们有一些限制 我们只能读取 CSV JSON XLSX 和 HDF5 它不支持任何其他格式 目前
  • hadoop/hdfs/name 处于不一致状态:存储目录(hadoop/hdfs/data/)不存在或不可访问

    我已经尝试了 stackoverflow 上提供的有关此主题的所有不同解决方案 但没有帮助 再次询问具体的日志和详细信息 任何帮助表示赞赏 我的 Hadoop 集群中有 1 个主节点和 5 个从节点 ubuntu用户和ubuntu组是所有者
  • 如何更改 Spark 程序的 HDFS 复制因子?

    我需要将 Spark 程序的 HDFS 复制因子从 3 更改为 1 在搜索时 我想出了 spark hadoop dfs replication 属性 但是通过查看https spark apache org docs latest con
  • 如何将位于 HDFS 上的类型安全配置文件添加到 Spark-Submit(集群模式)?

    我有一个 Spark Spark 1 5 2 应用程序 它将数据从 Kafka 流式传输到 HDFS 我的应用程序包含两个 Typesafe 配置文件来配置某些内容 例如 Kafka 主题等 现在我想在集群中使用spark submit 集
  • Hadoop 顺序数据访问

    根据 Hadoop 权威指南 HDFS 是一个文件系统 设计用于存储非常大的文件 流式或顺序数据访问模式 什么是流式或顺序数据访问 它如何减少磁盘的寻道时间 这并不是 Hadoop 特有的 顺序访问模式是指按顺序读取数据 通常是从开始到结束
  • 连接到 Hive 时使用 Spark 进行 Kinit

    我正在尝试从独立的 Spark 连接到 Hive hadoop 集群具有 kerberos 身份验证 有人可以让我知道如何在 Spark 程序中执行 kinit 我可以连接到配置单元吗 更新 我的 Spark 与 Hadoop 位于不同的集
  • 运行时异常:java.lang.NoSuchMethodException:tfidf$Reduce.()

    如何解决这个问题 tfidf是我的主类 为什么运行jar文件后会出现这个错误 java lang RuntimeException java lang NoSuchMethodException tfidf Reduce
  • HDFS:使用 Java / Scala API 移动多个文件

    我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件 例如 我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
  • 如何从hdfs读取文件[重复]

    这个问题在这里已经有答案了 我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行 而不将 mr txt 文件下载到本地 但我无法从 hdfs 打开 mr tx
  • HDFS 中的文件数量与块数量

    我正在运行单节点 hadoop 环境 当我跑的时候 hadoop fsck user root mydatadir block 我真的对它给出的输出感到困惑 Status HEALTHY Total size 998562090 B Tot

随机推荐

  • 使用Visual Studio开发Linux程序

    首先我们使用visual studio创建项目 这里我使用的是visual studio 2022 visual studio 2019的也一样 如下创建项目即可 然后我们需要在visual studio中连接我们的Linux服务器 点击
  • 刷脸支付顺应时代各种优惠政策出现

    相比于人工合成的二维码扫码支付 刷脸支付采用的是生物信息识别技术 在安全性上后者要比前者高很多 刷脸支付自从出世以来就受到广大创业者 商家的关注 自从去年支付宝推出刷脸支付并在实体店投入运营 到今年刷脸支付得到快速的发展 微信也加入刷脸支付
  • 后台运行VirtualBox虚拟机

    运行一个VirtualBox虚拟机最常见的方式是 打开VirtualBox 点击对应的虚拟机来运行 使用这种传统方式运行的虚拟机通常都有一个前台界面 可以像操作本地电脑一样进行操作 但是Linuxer有时候更喜欢通过终端远程接入 而不是在虚
  • 手撕/手写/自己实现 BN层/batch norm/BatchNormalization python torch pytorch

    计算过程 在卷积神经网络中 BN 层输入的特征图维度是 N C H W 输出的特征图维度也是 N C H W N 代表 batch size C 代表 通道数 H 代表 特征图的高 W 代表 特征图的宽 我们需要在通道维度上做 batch
  • 51单片机上连YL69土壤湿度传感器获取的数据在LCD上显示出来

    要做一个项目 被分配到做DS18B20温度传感与YL69土壤湿度传感器在51单片机上用LCD显示屏显示出来 温度传感模块很简单 网上到处都是资料 但是YL69的资料就很少了 特别还是在51单片机上实现 其实懂了原理也还是简单 将传感器的AO
  • 高并发+海量数据下如何实现系统解耦?【上】

    V xin ruyuanhadeng获得600 页原创精品文章汇总PDF 一 写在前面 之前更新过一个 亿级流量系统架构 系列 主要讲述了一个大规模商家数据平台的如下几个方面 如何承载百亿级数据存储 如何设计高容错的分布式架构 如何设计承载
  • 拓端tecdat

    最近我们被客户要求撰写关于偏最小二乘法 PLS 回归的研究报告 包括一些图形和统计输出 本文建立偏最小二乘法 PLS 回归 PLSR 模型 以及预测性能评估 为了建立一个可靠的模型 我们还实现了一些常用的离群点检测和变量选择方法 可以去除潜
  • 全国程序员收入大调查,粒度到省

    2019年五一假期 我没休息 而是统计某招聘网站了全国的程序员工资 总体统计 2019年4月全国招收程序员302303人 2019年4月全国程序员平均工资12807元 工资中位数11500元 其中95 的人的工资介于3750元到32500元
  • (python算法)LeetCode-版本号比较

    第一次笔试 发挥的很糟糕 基础不好是硬伤 碰到了版本号比较这个问题 回来后搜了下 发现在LeetCode里有 正好再仔细研究下 以下是原题 比较两个版本号 version1 和 version2 如果 version1 gt version
  • python怎么一步步调试_PyCharm入门第一步(二)——调试第一个Python应用程序

    第2步 调试您的第一个Python应用程序 找出问题的根源 PyCharm报告运行时错误 a ZeroDivisionError 深入研究一下代码 找出问题所在 这里可以使用PyCharm调试器来查看代码中发生了什么 要开始调试 您必须先设
  • 【珍藏版】 2012Java开发工程师必备精品资料(115个)

    Java应用广泛 涉及个人PC 数据中心 游戏控制台 科学超级计算机 移动电话和互联网等领域 同时拥有全球最大的开发者专业社群 小弟精心整理了115个精品资料 包括11个Java开发专题和104个热门资源 网上的资料众多 参差不齐 然而这批
  • PHPBONE使用问题集--.Net直接POST数据被过滤

    当 NET用POST发送数据到服务端时 发现 加号全被过滤成空格了 以为是PHPBONE的问题 查了半天代码也没发现哪有异常 但是以前也遇到过 也的确是处理过 只是不记得是怎么处理的了 无耐翻出以前的程序查找了一番 结果发现是编码问题 把数
  • 2021-07-18

    JQuery之DOM操作 1 创建节点及结点属性 1 DOM创建节点及结点属性 创建流程比较简单 大体如下 创建节点 常见的 元素 属性和文本 添加节点的一些属性 加入到文档中 流程中涉及的一点方法 创建元素 document create
  • 哲学家问题(死锁问题)

    1 问题描述 有五个哲学家绕着圆桌坐 每个哲学家面前有一盘面 两人之间有一支筷子 这样每个哲学家左右各有一支筷子 哲学家有2个状态 思考或者拿起筷子吃饭 如果哲学家拿到一只筷子 不能吃饭 直到拿到2只才能吃饭 并且一次只能拿起身边的一支筷子
  • git从某个分支创建新分支

    如题 记录一下从某个分支创建新分支的方法 如从dev分支创建一个test分支 第一步 切换到你指定的分支 如我要从dev上拉一个分支 代码一模一样 git checkout dev 第二步 拉取dev的最新代码 git pull 第三步 在
  • Android Bitmap加载内存占用彻底分析

    背景 在某个版本应用上线后 偶然测得首页占用的内存非常的大而且一直不能回收掉 经过一轮的排查后最终确定是3张图片引起的 当时每张图片占用了将近20m内存 当时紧急处理好后还一直惦记着此事 后来对Android加载Bitmap的内存占用作了彻
  • Android系统源代码的下载与编译

    http www jianshu com p aeaceda41798
  • UVa 12955 Factorial

    Problem uva onlinejudge org index php option com onlinejudge Itemid 8 page show problem problem 4834 开始想多了 想着不能简单贪心 要用dp
  • C# Task异步编程

    Task任务用法 Task用的是线程池 线程池的线程数量的有上限的 这个可以通过ThreadPool修改 我们经常会用到task run new task 和task factory startnew方法来创建任务 Task Factory
  • 检查HDFS块状态

    hadoop集群运行过程中 节点的块状态或者上下线节点时集群都会受影响 如何查看当前的hdfs的块的状态 hadoop1 x时候的命令 hadoop2 x也可使用 hadoop fsck 在hadoop2 0之后 可以使用新命令 hdfs