Ceph OSD为DOWN时修复

2023-05-16

本文所使用Ceph版本为luminous(不同版本删除OSD基本操作相同),当出现Ceph OSD为down的情况时,可以通过以下方法解决(假设ceph-admin节点OSD.1 Down,该OSD对应磁盘为/dev/sdb):

1.首先尝试能否重启ceph-osd服务

近期在维护ceph集群时,发现一些新的情况:

(1)ceph osd down掉之后(这里假设osd.1 down),去到对应的机器上使用systemctl | grep ceph 命令查看ceph进程时,发现ceph-osd@1.service仍然显示active,此时通过systemctl restart ceph-osd@1.service可以解决这个问题(这也许是ceph的一个bug?并没有严格考证过),可能需要等待一段时间服务才会重启成功(大约几分钟)。

{最近发现有时这种情况下简单重启一下进程不能解决问题,这时可以尝试以下步骤重新开启osd进程:

ceph osd out osd.1

systemctl stop ceph-osd@1.service

ceph-osd -i 1          //执行完这一条命令后需要等待比较长的时间

如果执行成功,应提示如下信息:

[root@a-08 ~]# ceph-osd -i 1
starting osd.1 at - osd_data /var/lib/ceph/osd/ceph-1 /home/nvme/ceph/ceph-1/journal
2020-01-04 12:04:32.815 7f2cc6e82b80 -1 osd.1 69155 log_to_monitors {default=true}
如果执行失败并且提示如下信息:

osd.1 init authentication failed: (1) Operation not permitted

解决方法:

ceph auth del osd.1

ceph auth add osd.1 osd 'allow *' mon 'allow profile osd' -i /var/lib/ceph/osd/ceph-1/keyring

ceph osd out osd.1

systemctl stop ceph-osd@1.service

ceph-osd -i 1

问题应该得到解决

}

(2)如果ceph.conf配置文件中的cluster network字段配置错误会导致所有的osd服务down掉。

(3)ceph health detail提示slow ops, oldest one blocked for 109179 sec, daemons [osd.1,osd.2,osd.3] have slow ops,此时需要进入osd所对应机器上重启ceph-osd进程,但如果使用systemctl restart ceph-osd@1.service重启会导致ceph-osd开始自动重启,过一段时间之后就会导致ceph-osd进程状态为failed,无法重启服务(后来尝试重启几次机器之后发现集群状态恢复正常,但是这种方法可能会导致数据丢失)。经过几次尝试,发现提示这种情况的slow ops时,需要首先使用systemctl stop ceph-osd@1.service命令使ceph-osd@1.service进程停止后,再使用systemctl start ceph-osd@1.service才不会发生上述问题(执行完systemctl stop 命令后,不要马上重新执行systemctl start,需要等待集群状态趋于稳定后再执行systemctl start命令,可以通过ceph -w查看ceph集群实时状态,如果集群信息连续多行显示相同的信息,则说明集群状态已经处于稳定,此时可以执行systemctl start命令使osd重新启动)。如果重启这个进程之后ceph集群并未达到健康状态,则继续按此方法重启ceph health detail中有问题的osd。(如果ceph health detail中只是提示slow ops和monitorID,并没有具体的osd编号时,重启相应的monitor进程即可)

(4)有可能是硬件故障导致ceph osd down掉(概率比较低,但我确实遇到过),需要确认非硬件故障之后再尝试方法2(发生硬件故障之后是无法执行方法2的)。

2.如果重启无望,可采用以下步骤重新格式化硬盘并将其加入ceph集群中(以下步骤会将硬盘中的所有数据抹除)

步骤1.停止相应OSD服务

           此步骤需要在Down掉的OSD所在节点上操作,

           输入命令:

           systemctl stop ceph-osd@1.service

步骤2.取消OSD挂载

           安装OSD时,会将osd.1挂载至/var/lib/ceph/osd/ceph-1,因此,删除OSD时,需要首先取消OSD挂载,

           输入命令:

           umount /var/lib/ceph/osd/ceph-1

步骤3. 设置OSD为OUT

           输入命令:

           ceph osd out osd.1

步骤4.删除OSD

           输入命令:

           ceph osd crush remove osd.1(如果未配置Crush Map则不需要执行这一行命令)

           ceph auth del osd.1

           ceph osd rm 1

步骤5.清空已删除磁盘中的内容

          输入命令:

          wipefs -af /dev/sdb

          完成此项操作后,重启该OSD所在节点的机器

          重启完成后,需要zap该磁盘,输入命令如下:

           ceph-volume lvm zap /dev/sdb

          如果zap成功,会提示以下信息:

            --> Zapping: /dev/sdb
            Running command: /usr/sbin/cryptsetup status /dev/mapper/
            stdout: /dev/mapper/ is inactive.
            Running command: /usr/sbin/wipefs --all /dev/sdb
            Running command: /bin/dd if=/dev/zero of=/dev/sdb bs=1M count=10
            stderr: 10+0 records in
            10+0 records out
            stderr: 10485760 bytes (10 MB) copied, 0.0195807 s, 536 MB/s
            --> Zapping successful for: /dev/sdb

步骤6.重新安装OSD

           输入命令:

           ceph-deploy osd create  --bluestore  ceph-admin --data /dev/sdb

步骤7.查看OSD TREE

           输入命令:

           ceph osd tree

           此时应该看到OSD为UP的情况

附:

如果不清楚osd编号与盘符的对应关系,可以通过以下命令查看(ceph在安装osd时,会向磁盘中写入一些信息,其中就包括osd编号、集群ID等):

此处以sdb为例

ceph-volume lvm list /dev/sdb (注:ceph-volume lvm list命令会将所有与ceph相关的磁盘中写入的ceph信息都显示出来)

如果磁盘很多,可以参考以下shell脚本(批量显示磁盘中的ceph集群信息),这个脚本可以显示出每一个磁盘对应的osd编号:

#!/bin/bash
osd=`fdisk -l | grep [^o]sd  | awk '{print $2}' | sed "s/://g" | sort `
echo "Device in Ceph"
for i in $osd
do
  echo $i
  ceph-volume lvm list $i | grep "=====" | awk '{print $2}'
  echo
  echo "==================================================="
  echo
done

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Ceph OSD为DOWN时修复 的相关文章

  • ceph delete pool

    参考 xff1a Pools Ceph Documentation 前言 xff1a 网上的写的乱七八糟不是你抄我就是我抄你 写的完全瞎扯 简直看不下去 官网截图 xff1a 准备 1 查看pool名称 ceph osd lspools 创
  • k8s的ceph

    ceph安装 地址 xff1a https rook io docs rook v1 8 quickstart html 特性丰富 1 xff0c 支持三种存储接口 xff1a 块存储 文件存储 对象存储 2 xff0c 支持自定义接口 x
  • OpenHD改造实现廉价高清数字图传(树莓派+PC )—(四)OSD数据传输和画面显示

    前面三篇文章分别讲了整体情况 xff0c wifibroadcast xff0c 以及OpenVG的移植等 OpenHD改造实现廉价高清数字图传 xff08 树莓派zero 43 ubuntu PC xff09 xff08 一 xff09
  • OpenHD改造实现廉价高清数字图传(树莓派+PC)—(六)OSD和视频画面整合显示

    这个OpenHD改造移植系列的最后一篇文章 xff0c 这篇文章主要讲如何讲前面说到的全部内容串接起来 xff0c 讲OSD画面显示和视频画面整合到一起 xff0c 形成完整的图传地面显示 xff0c 真正实现PC上直接接收显示图传视频和数
  • qt界面叠加视频OSD双层显示

    最终代码存放于 http download csdn net detail lzh445096 8849147 本人负责的是UI界面 提供给底层应用程序接口函数 此接口函数功能为向指定路径的文件中写入命令字符 应用程序去到该文件中读取到相应
  • Ceph:ceph修复osd为down的情况

    ceph修复osd为down的情况 今天巡检发现ceph集群有一个osds Down了 通过dashboard 查看 ceph修复osd为down的情况 点击查看详情 可以看到是哪个节点Osds Down 了 通过命令查看Osds状态 查看
  • ceph pg和pgp的区别

    一 前言 首先来一段英文关于PG和PGP区别的解释 PG Placement Group PGP Placement Group for Placement purpose pg num number of placement groups
  • Ceph 存储池命令 以及 数据压缩

    文章目录 一 存储池操作 1 1 常用命令 1 2 删除存储池 1 3 存储池配额 1 4 存储池可用参数 二 存储池快照 2 1 创建快照 2 2 验证快照 2 3 回滚快照 2 4 删除快照 三 数据压缩 3 1 启用压缩并指定压缩算法
  • Ceph运维存储 命令管理操作

    分布式存储运维操作 集群服务管理常用命令 统一节点上的ceph conf文件 将admin节点上修改的ceph conf 推送给所有其他节点 overwrite conf强制覆盖 ceph deploy overwrite conf con
  • Ceph性能优化总结(v0.94)

    如需转载请标明作者 原文地址 http xiaoquqi github io blog 2015 06 28 ceph performance optimization summary 最近一直在忙着搞Ceph存储的优化和测试 看了各种资料
  • 利用 RDMA 技术加速 Ceph 存储解决方案

    利用 RDMA 技术加速 Ceph 存储解决方案 晓兵XB 云原生云 2023 04 29 20 37 发表于四川 首发链接 利用 RDMA 技术加速 Ceph 存储解决方案 在本文中 我们首先回顾了 Ceph 4K I O 工作负载中遇到
  • 分布式存储Ceph介绍及搭建

    一 存储的类型 1 单机存储设备 DAS 直接附加存储 是直接接到计算机的主板总线上去的存储 IDE SATA SCSI SAS USB 接口的磁盘 所谓接口就是一种存储设备驱动下的磁盘设备 提供块级别的存储 NAS 网络附加存储 是通过网
  • ceph环境清理

    第一步 在 root ceph 目录下执行 第一个节点 ceph deploy purge ceph01 ceph02 ceph03 ceph04 ceph deploy purgedata ceph01 ceph02 ceph03 cep
  • Loongnix单机部署Ceph(LoongArch架构、Ceph N版、手动部署MON、OSD、MGR、Dashboard服务)

    基础环境信息 CPU 龙芯3C5000L 2 内存 128G 硬盘 系统盘 一块512G的NVME的SSD 数据盘 三块16T的HDD 操作系统版本 Loongnix 8 4 Ceph版本 Ceph 14 2 21 Nautilus Cep
  • 删除 Ceph 集群里的某个节点的全部OSD (2 of 3)

    前言 如果你的ceph集群的数据只存在在该节点的所有OSD上 删除该节点的OSD会导致数据丢失 如果集群配置了冗余replication或者EC 需要做pg 修复 出于数据安全考虑 请一定 一定 一定 备份好你要删除的OSD上的数据 这里一
  • s3cmd put 时提示 ERROR: S3 error: 403 (QuotaExceeded)

    配置里的rgw配额是10000000写满 s3cmd put 时提示 ERROR S3 error 403 QuotaExceeded rgw bucket default quota max objects 值为 1 查看配额信息 rad
  • rdb map出錯rbd sysfs write failed

    創建了一個rbd鏡像 rbd create size 4096 docker test 然後 在Ceph client端將該rbd鏡像映射為本地設備時出錯 rbd map docker test name client admin rbd
  • Ceph入门到精通-Macvlan网络模式

    Docker中的Macvlan网络模式提供了一种将容器直接连接到宿主机网络的方式 使得容器可以拥有自己的MAC地址和与宿主机网络的直接连接 以下是使用Macvlan网络模式的一般步骤 创建Macvlan网络 docker network c
  • Ceph bluestore中的缓存管理

    从15年3月接触Ceph分布式存储系统 至今已经5年了 因为工作的需要 对Ceph的主要模块进行了较深入的学习 也在Ceph代码层面做了些许改进 以满足业务需要 我们主要使用M版本 最近得闲 将过往的一些学习心得 改进以及优化思路记录下了
  • Flink 使用 Ceph 作为持久存储

    Flink 文档建议 Ceph 可以用作状态的持久存储 https ci apache org projects flink flink docs release 1 3 dev stream checkpointing html http

随机推荐

  • 强制将int转化为float

    span class token macro property span class token directive hash span span class token directive keyword include span spa
  • C语言产生随机数(不重复)

    C语言产生随机数 xff08 不重复 xff09 头文件windows h 借助sleep进行时间上的滞后 span class token macro property span class token directive hash sp
  • 节气生活,邮箱推送,提前预警,告别炎炎夏日下的束手无策

    初步分析 网站动态显示 故采取selenium爬取 第一步安装Googledrive xff0c phantomjs xff0c pip install selenium 1 xpath查找 切换 节点 element01 span cla
  • python自动化,小程序fiddler抓包

    我在校园吗 xff1f 科技日新月异的当下 xff0c 时刻需要我们 xff0c xff0c xff0c 校园激起了我的学习欲望 行动代号SchoolDays 我在校园吗 xff1f 工具Python xff0c Fiddler 下载安卓F
  • GBT游戏小组游戏爬取,变相解决无法搜索的问题

    本次采用selenium方式爬取 但此代码有个小小问题 在第二个日期分类下会出现多个空格 selenium中的隐性等待和显示等待都测试过 xff0c 无法解决这个问题 故把保存的txt逐行读取 xff0c 再删除空格了 file1 span
  • Win10配置FORTRAN环境 CodeBlocks下载安装教程

    首先 xff0c 前往官网下载最新版本 选择带编译器版本 xff08 名称中包含mingw xff09 xff0c 新版名字中不再包含fortran字眼 xff0c 但如NOTE所述 xff0c 该版本中包含gfortran编译器 xff0
  • dockerfile容器的实战安装nginx和mysql服务

    第三章 实验 xff1a docker容器的实战 一 基础环境 安装docker服务 1 xff09 配置网络yum源 root 64 centos01 cd etc yum repos d root 64 centos01 yum rep
  • 使用 Learner Lab 建立 WordPress 网站 (EC2)

    使用 Learner Lab 建立 WordPress 网站 EC2 AWS Academy Learner Lab 是提供一个帐号让学生可以自行使用 AWS 的服务 xff0c 让学生可以在 100 USD的金额下 xff0c 自行练习所
  • LaTex 排版相关记录--1 参考文献排版

    找到latex代码中的 bibligraphystyle xff0c 然后根据下面的各种需求进行替换 bibliographystyle unsrt 样式同plain xff0c 只是按照引用的先后排序 xff0c 参考文献会根据在正文中引
  • 使用rke构建企业生产k8s,安装kubectl客户端

    一 使用rke构建企业生产k8s xff0c 安装kubectl客户端 1 安装kubectl客户端工具 span class token comment wget https storage googleapis com kubernet
  • 保持pppoe不掉线

    对于无极网络的VPS 修改 etc ppp pppoe server options 这个文件里面的两个参数 默认 xff1a lcp echo interval 1 发送间隔秒 lcp echo failure 5 5次未响应断开 因为o
  • Linux环境编程06

    目录 Linux环境编程之进程管理一 进程的基本概念二 创建进程三 进程的正常退出 Linux环境编程之进程管理 一 进程的基本概念 进程与程序 程序是存储在磁盘上的可执行文件 xff0c 程序被加载到内存中开始运行时叫做进程 一个程序可以
  • 区间最大平均值

    题目链接 xff1a https www luogu com cn problem P1404 题目描述 xff1a 给一个长度为 n 的数列 xff0c 我们需要找出该数列的一个子串 xff0c 使得子串平均数最大化 xff0c 并且子串
  • 输出 0~N 内的素数 ( C++ )

    span class token macro property span class token directive hash span span class token directive keyword include span spa
  • 快读模板 ( C++ )

    span class token macro property span class token directive hash span span class token directive keyword include span spa
  • Java正整数分解质因数

    leetcode 2 Java正整数分解质因数 1 题目 xff1a 将一个正整数分解质因数 例如 xff1a 输入 90 打印出 90 61 233 5 2 题目解析 xff1a 先将数m从2开始整除 xff0c 如果能被2整除 xff0
  • you-get使用教程

    you get爬虫 xff0c 依赖于Python3 10 xff0c 可以爬取网页无法下载的视频文件 xff0c 具体步骤如下 xff1a 1 xff0c 下载Python3 10无脑下一步安装 2 xff0c 新建一个空白文件夹 xff
  • Windows如何自定义右键新建菜单栏

    目录 右键新建菜单的实现原理在右键新建菜单中新增项方法一可能出现的问题 方法二编辑右键新建菜单的图标 修改右键新建菜单栏的顺序 右键新建菜单的实现原理 参考文章 修改 win10 右键 新建 菜单 xff08 原理 两种方法及注意事项 xf
  • Centos 8升级至Centos 8 Stream

    文章目录 一 背景 xff1a 二 分析 xff1a 三 升级步骤 xff1a 四 成功安装 openstack 软件仓库参考链接 xff1a 一 背景 xff1a 因使用华为云ecs部署 openstack yoga 版本过程中 xff0
  • Ceph OSD为DOWN时修复

    本文所使用Ceph版本为luminous 不同版本删除OSD基本操作相同 xff09 xff0c 当出现Ceph OSD为down的情况时 xff0c 可以通过以下方法解决 xff08 假设ceph admin节点OSD 1 Down xf