Ceph OSD为DOWN时修复

2023-05-16

本文所使用Ceph版本为luminous(不同版本删除OSD基本操作相同），当出现Ceph OSD为down的情况时，可以通过以下方法解决（假设ceph-admin节点OSD.1 Down，该OSD对应磁盘为/dev/sdb）：

1.首先尝试能否重启ceph-osd服务

近期在维护ceph集群时，发现一些新的情况：

（1）ceph osd down掉之后（这里假设osd.1 down），去到对应的机器上使用systemctl | grep ceph 命令查看ceph进程时，发现ceph-osd@1.service仍然显示active，此时通过systemctl restart ceph-osd@1.service可以解决这个问题（这也许是ceph的一个bug？并没有严格考证过），可能需要等待一段时间服务才会重启成功（大约几分钟）。

{最近发现有时这种情况下简单重启一下进程不能解决问题，这时可以尝试以下步骤重新开启osd进程：

ceph osd out osd.1

systemctl stop ceph-osd@1.service

ceph-osd -i 1 //执行完这一条命令后需要等待比较长的时间

如果执行成功，应提示如下信息：

[root@a-08 ~]# ceph-osd -i 1
starting osd.1 at - osd_data /var/lib/ceph/osd/ceph-1 /home/nvme/ceph/ceph-1/journal
2020-01-04 12:04:32.815 7f2cc6e82b80 -1 osd.1 69155 log_to_monitors {default=true}
如果执行失败并且提示如下信息：

osd.1 init authentication failed: (1) Operation not permitted

解决方法：

ceph auth del osd.1

ceph auth add osd.1 osd 'allow *' mon 'allow profile osd' -i /var/lib/ceph/osd/ceph-1/keyring

ceph osd out osd.1

systemctl stop ceph-osd@1.service

ceph-osd -i 1

问题应该得到解决

}

（2）如果ceph.conf配置文件中的cluster network字段配置错误会导致所有的osd服务down掉。

（3）ceph health detail提示slow ops, oldest one blocked for 109179 sec, daemons [osd.1,osd.2,osd.3] have slow ops,此时需要进入osd所对应机器上重启ceph-osd进程，但如果使用systemctl restart ceph-osd@1.service重启会导致ceph-osd开始自动重启，过一段时间之后就会导致ceph-osd进程状态为failed，无法重启服务（后来尝试重启几次机器之后发现集群状态恢复正常，但是这种方法可能会导致数据丢失）。经过几次尝试，发现提示这种情况的slow ops时，需要首先使用systemctl stop ceph-osd@1.service命令使ceph-osd@1.service进程停止后，再使用systemctl start ceph-osd@1.service才不会发生上述问题（执行完systemctl stop 命令后，不要马上重新执行systemctl start，需要等待集群状态趋于稳定后再执行systemctl start命令，可以通过ceph -w查看ceph集群实时状态，如果集群信息连续多行显示相同的信息，则说明集群状态已经处于稳定，此时可以执行systemctl start命令使osd重新启动）。如果重启这个进程之后ceph集群并未达到健康状态，则继续按此方法重启ceph health detail中有问题的osd。（如果ceph health detail中只是提示slow ops和monitorID，并没有具体的osd编号时，重启相应的monitor进程即可）

（4）有可能是硬件故障导致ceph osd down掉（概率比较低，但我确实遇到过），需要确认非硬件故障之后再尝试方法2（发生硬件故障之后是无法执行方法2的）。

2.如果重启无望，可采用以下步骤重新格式化硬盘并将其加入ceph集群中（以下步骤会将硬盘中的所有数据抹除）

步骤1.停止相应OSD服务

此步骤需要在Down掉的OSD所在节点上操作，

输入命令：

systemctl stop ceph-osd@1.service

步骤2.取消OSD挂载

安装OSD时，会将osd.1挂载至/var/lib/ceph/osd/ceph-1，因此，删除OSD时，需要首先取消OSD挂载，

输入命令：

umount /var/lib/ceph/osd/ceph-1

步骤3. 设置OSD为OUT

输入命令：

ceph osd out osd.1

步骤4.删除OSD

输入命令：

ceph osd crush remove osd.1(如果未配置Crush Map则不需要执行这一行命令）

ceph auth del osd.1

ceph osd rm 1

步骤5.清空已删除磁盘中的内容

输入命令：

wipefs -af /dev/sdb

完成此项操作后，重启该OSD所在节点的机器

重启完成后，需要zap该磁盘，输入命令如下：

ceph-volume lvm zap /dev/sdb

如果zap成功，会提示以下信息：

--> Zapping: /dev/sdb
Running command: /usr/sbin/cryptsetup status /dev/mapper/
stdout: /dev/mapper/ is inactive.
Running command: /usr/sbin/wipefs --all /dev/sdb
Running command: /bin/dd if=/dev/zero of=/dev/sdb bs=1M count=10
stderr: 10+0 records in
10+0 records out
stderr: 10485760 bytes (10 MB) copied, 0.0195807 s, 536 MB/s
--> Zapping successful for: /dev/sdb

步骤6.重新安装OSD

输入命令：

ceph-deploy osd create --bluestore ceph-admin --data /dev/sdb

步骤7.查看OSD TREE

输入命令：

ceph osd tree

此时应该看到OSD为UP的情况

附：

如果不清楚osd编号与盘符的对应关系，可以通过以下命令查看（ceph在安装osd时，会向磁盘中写入一些信息，其中就包括osd编号、集群ID等）：

此处以sdb为例

ceph-volume lvm list /dev/sdb （注：ceph-volume lvm list命令会将所有与ceph相关的磁盘中写入的ceph信息都显示出来）

如果磁盘很多，可以参考以下shell脚本（批量显示磁盘中的ceph集群信息），这个脚本可以显示出每一个磁盘对应的osd编号：

#!/bin/bash
osd=`fdisk -l | grep [^o]sd | awk '{print $2}' | sed "s/://g" | sort `
echo "Device in Ceph"
for i in $osd
do
echo $i
ceph-volume lvm list $i | grep "=====" | awk '{print $2}'
echo
echo "==================================================="
echo
done

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Ceph OSD为DOWN时修复的相关文章

ceph delete pool

参考 xff1a Pools Ceph Documentation 前言 xff1a 网上的写的乱七八糟不是你抄我就是我抄你写的完全瞎扯简直看不下去官网截图 xff1a 准备 1 查看pool名称 ceph osd lspools 创
k8s的ceph

ceph安装地址 xff1a https rook io docs rook v1 8 quickstart html 特性丰富 1 xff0c 支持三种存储接口 xff1a 块存储文件存储对象存储 2 xff0c 支持自定义接口 x
OpenHD改造实现廉价高清数字图传（树莓派+PC ）—（四）OSD数据传输和画面显示

前面三篇文章分别讲了整体情况 xff0c wifibroadcast xff0c 以及OpenVG的移植等 OpenHD改造实现廉价高清数字图传 xff08 树莓派zero 43 ubuntu PC xff09 xff08 一 xff09
OpenHD改造实现廉价高清数字图传(树莓派+PC)—（六）OSD和视频画面整合显示

这个OpenHD改造移植系列的最后一篇文章 xff0c 这篇文章主要讲如何讲前面说到的全部内容串接起来 xff0c 讲OSD画面显示和视频画面整合到一起 xff0c 形成完整的图传地面显示 xff0c 真正实现PC上直接接收显示图传视频和数
qt界面叠加视频OSD双层显示

最终代码存放于 http download csdn net detail lzh445096 8849147 本人负责的是UI界面提供给底层应用程序接口函数此接口函数功能为向指定路径的文件中写入命令字符应用程序去到该文件中读取到相应
Ceph：ceph修复osd为down的情况

ceph修复osd为down的情况今天巡检发现ceph集群有一个osds Down了通过dashboard 查看 ceph修复osd为down的情况点击查看详情可以看到是哪个节点Osds Down 了通过命令查看Osds状态查看
ceph pg和pgp的区别

一前言首先来一段英文关于PG和PGP区别的解释 PG Placement Group PGP Placement Group for Placement purpose pg num number of placement groups
Ceph 存储池命令以及数据压缩

文章目录一存储池操作 1 1 常用命令 1 2 删除存储池 1 3 存储池配额 1 4 存储池可用参数二存储池快照 2 1 创建快照 2 2 验证快照 2 3 回滚快照 2 4 删除快照三数据压缩 3 1 启用压缩并指定压缩算法
Ceph运维存储命令管理操作

分布式存储运维操作集群服务管理常用命令统一节点上的ceph conf文件将admin节点上修改的ceph conf 推送给所有其他节点 overwrite conf强制覆盖 ceph deploy overwrite conf con
Ceph性能优化总结(v0.94)

如需转载请标明作者原文地址 http xiaoquqi github io blog 2015 06 28 ceph performance optimization summary 最近一直在忙着搞Ceph存储的优化和测试看了各种资料
利用 RDMA 技术加速 Ceph 存储解决方案

利用 RDMA 技术加速 Ceph 存储解决方案晓兵XB 云原生云 2023 04 29 20 37 发表于四川首发链接利用 RDMA 技术加速 Ceph 存储解决方案在本文中我们首先回顾了 Ceph 4K I O 工作负载中遇到
分布式存储Ceph介绍及搭建

一存储的类型 1 单机存储设备 DAS 直接附加存储是直接接到计算机的主板总线上去的存储 IDE SATA SCSI SAS USB 接口的磁盘所谓接口就是一种存储设备驱动下的磁盘设备提供块级别的存储 NAS 网络附加存储是通过网
ceph环境清理

第一步在 root ceph 目录下执行第一个节点 ceph deploy purge ceph01 ceph02 ceph03 ceph04 ceph deploy purgedata ceph01 ceph02 ceph03 cep
Loongnix单机部署Ceph（LoongArch架构、Ceph N版、手动部署MON、OSD、MGR、Dashboard服务）

基础环境信息 CPU 龙芯3C5000L 2 内存 128G 硬盘系统盘一块512G的NVME的SSD 数据盘三块16T的HDD 操作系统版本 Loongnix 8 4 Ceph版本 Ceph 14 2 21 Nautilus Cep
删除 Ceph 集群里的某个节点的全部OSD （2 of 3）

前言如果你的ceph集群的数据只存在在该节点的所有OSD上删除该节点的OSD会导致数据丢失如果集群配置了冗余replication或者EC 需要做pg 修复出于数据安全考虑请一定一定一定备份好你要删除的OSD上的数据这里一
s3cmd put 时提示 ERROR: S3 error: 403 (QuotaExceeded)

配置里的rgw配额是10000000写满 s3cmd put 时提示 ERROR S3 error 403 QuotaExceeded rgw bucket default quota max objects 值为 1 查看配额信息 rad
rdb map出錯rbd sysfs write failed

創建了一個rbd鏡像 rbd create size 4096 docker test 然後在Ceph client端將該rbd鏡像映射為本地設備時出錯 rbd map docker test name client admin rbd
Ceph入门到精通-Macvlan网络模式

Docker中的Macvlan网络模式提供了一种将容器直接连接到宿主机网络的方式使得容器可以拥有自己的MAC地址和与宿主机网络的直接连接以下是使用Macvlan网络模式的一般步骤创建Macvlan网络 docker network c
Ceph bluestore中的缓存管理

从15年3月接触Ceph分布式存储系统至今已经5年了因为工作的需要对Ceph的主要模块进行了较深入的学习也在Ceph代码层面做了些许改进以满足业务需要我们主要使用M版本最近得闲将过往的一些学习心得改进以及优化思路记录下了
Flink 使用 Ceph 作为持久存储

Flink 文档建议 Ceph 可以用作状态的持久存储 https ci apache org projects flink flink docs release 1 3 dev stream checkpointing html http

随机推荐

强制将int转化为float

span class token macro property span class token directive hash span span class token directive keyword include span spa
C语言产生随机数（不重复）

C语言产生随机数 xff08 不重复 xff09 头文件windows h 借助sleep进行时间上的滞后 span class token macro property span class token directive hash sp
节气生活，邮箱推送，提前预警，告别炎炎夏日下的束手无策

初步分析网站动态显示故采取selenium爬取第一步安装Googledrive xff0c phantomjs xff0c pip install selenium 1 xpath查找切换节点 element01 span cla
python自动化，小程序fiddler抓包

我在校园吗 xff1f 科技日新月异的当下 xff0c 时刻需要我们 xff0c xff0c xff0c 校园激起了我的学习欲望行动代号SchoolDays 我在校园吗 xff1f 工具Python xff0c Fiddler 下载安卓F
GBT游戏小组游戏爬取，变相解决无法搜索的问题

本次采用selenium方式爬取但此代码有个小小问题在第二个日期分类下会出现多个空格 selenium中的隐性等待和显示等待都测试过 xff0c 无法解决这个问题故把保存的txt逐行读取 xff0c 再删除空格了 file1 span
Win10配置FORTRAN环境 CodeBlocks下载安装教程

首先 xff0c 前往官网下载最新版本选择带编译器版本 xff08 名称中包含mingw xff09 xff0c 新版名字中不再包含fortran字眼 xff0c 但如NOTE所述 xff0c 该版本中包含gfortran编译器 xff0
dockerfile容器的实战安装nginx和mysql服务

第三章实验 xff1a docker容器的实战一基础环境安装docker服务 1 xff09 配置网络yum源 root 64 centos01 cd etc yum repos d root 64 centos01 yum rep
使用 Learner Lab 建立 WordPress 网站 (EC2)

使用 Learner Lab 建立 WordPress 网站 EC2 AWS Academy Learner Lab 是提供一个帐号让学生可以自行使用 AWS 的服务 xff0c 让学生可以在 100 USD的金额下 xff0c 自行练习所
LaTex 排版相关记录--1 参考文献排版

找到latex代码中的 bibligraphystyle xff0c 然后根据下面的各种需求进行替换 bibliographystyle unsrt 样式同plain xff0c 只是按照引用的先后排序 xff0c 参考文献会根据在正文中引
使用rke构建企业生产k8s，安装kubectl客户端

一使用rke构建企业生产k8s xff0c 安装kubectl客户端 1 安装kubectl客户端工具 span class token comment wget https storage googleapis com kubernet
保持pppoe不掉线

对于无极网络的VPS 修改 etc ppp pppoe server options 这个文件里面的两个参数默认 xff1a lcp echo interval 1 发送间隔秒 lcp echo failure 5 5次未响应断开因为o
Linux环境编程06

目录 Linux环境编程之进程管理一进程的基本概念二创建进程三进程的正常退出 Linux环境编程之进程管理一进程的基本概念进程与程序程序是存储在磁盘上的可执行文件 xff0c 程序被加载到内存中开始运行时叫做进程一个程序可以
区间最大平均值

题目链接 xff1a https www luogu com cn problem P1404 题目描述 xff1a 给一个长度为 n 的数列 xff0c 我们需要找出该数列的一个子串 xff0c 使得子串平均数最大化 xff0c 并且子串
输出 0~N 内的素数 ( C++ )

span class token macro property span class token directive hash span span class token directive keyword include span spa
快读模板 ( C++ )

span class token macro property span class token directive hash span span class token directive keyword include span spa
Java正整数分解质因数

leetcode 2 Java正整数分解质因数 1 题目 xff1a 将一个正整数分解质因数例如 xff1a 输入 90 打印出 90 61 233 5 2 题目解析 xff1a 先将数m从2开始整除 xff0c 如果能被2整除 xff0
you-get使用教程

you get爬虫 xff0c 依赖于Python3 10 xff0c 可以爬取网页无法下载的视频文件 xff0c 具体步骤如下 xff1a 1 xff0c 下载Python3 10无脑下一步安装 2 xff0c 新建一个空白文件夹 xff
Windows如何自定义右键新建菜单栏

目录右键新建菜单的实现原理在右键新建菜单中新增项方法一可能出现的问题方法二编辑右键新建菜单的图标修改右键新建菜单栏的顺序右键新建菜单的实现原理参考文章修改 win10 右键新建菜单 xff08 原理两种方法及注意事项 xf
Centos 8升级至Centos 8 Stream

文章目录一背景 xff1a 二分析 xff1a 三升级步骤 xff1a 四成功安装 openstack 软件仓库参考链接 xff1a 一背景 xff1a 因使用华为云ecs部署 openstack yoga 版本过程中 xff0
Ceph OSD为DOWN时修复

本文所使用Ceph版本为luminous 不同版本删除OSD基本操作相同 xff09 xff0c 当出现Ceph OSD为down的情况时 xff0c 可以通过以下方法解决 xff08 假设ceph admin节点OSD 1 Down xf

Ceph OSD为DOWN时修复

Ceph OSD为DOWN时修复 的相关文章

随机推荐

热门标签

Ceph OSD为DOWN时修复的相关文章