proxmox集群节点崩溃处理

2023-05-16


问题描述

 

在现有集群加入一个物理节点,接着再此节点创建ceph监视器、创建OSD。从宿主机系统执行ceph osd tree查看状态,创建起来的几个OSD状态都正常(up),从proxmox管理界面看也是这样。

 

突然不知道什么原因,刚加入的节点就突然不能从集群中失效了。

image.png

再进宿主机系统查OSD状态,居然自己从up变成down。新增节点没数据,于是就试试重启,看能不能正常。重启以后,网络能通,ssh不能连接,web管理界面也不能访问。接下来,需要先把故障节点从集群中撤离出来,恢复以后,再加入集群。

 

从集群中删除故障节点

 

按操作顺序分两个步骤:从集群中删除故障ceph和从集群中删除物理节点。

 

ü  从集群中删除故障ceph

1.       登录集群任意物理正常节点系统,执行如下命令查看ceph osd状态:

root@pve48:~# ceph osd tree

ID CLASS WEIGHT   TYPE NAME      STATUS REWEIGHT PRI-AFF

-1         18.00357 root default                          

-3          4.91006     host pve48                        

 0     hdd  1.63669         osd.0      up    1.00000 1.00000

 1     hdd  1.63669         osd.1      up    1.00000 1.00000

 2     hdd  1.63669         osd.2        up  1.00000 1.00000

-5          4.91006     host pve49                        

 3     hdd  1.63669         osd.3      up    1.00000 1.00000

 4     hdd  1.63669         osd.4      up    1.00000 1.00000

 5     hdd  1.63669         osd.5      up    1.00000 1.00000

-7          4.91006     host pve50                        

 6     hdd  1.63669         osd.6      up    1.00000 1.00000

 7     hdd  1.63669         osd.7      up    1.00000 1.00000

 8     hdd  1.63669         osd.8      up    1.00000 1.00000

-9          3.27338     host pve51                        

9           hdd  1.63669         osd.9    down        0 1.00000

10     hdd  1.63669         osd.10   down          0 1.00000

从输出可知物理节点pve51的两个OSD有问题,需要删除。

2.       离线有问题的ceph osd,执行的操作如下:

root@pve48:~# ceph osd out osd.9

osd.9 is already out.

root@pve48:~# ceph osd out osd.10

osd.10 is already out.

操作时要仔细,别把正常的osd离线了。

3.       删除已经离线osd认证信息,执行的操作如下:

root@pve48:~# ceph auth del osd.9

updated

root@pve48:~# ceph auth del osd.10

updated

 

4.       彻底删除故障osd,操作如下:

root@pve48:~# ceph osd rm 9

removed osd.9

root@pve48:~# ceph osd rm 10

removed osd.10

注意:此操作ceph最后一列参数与前边的不同,是纯数字格式!!!

5.       查看集群osd状态,操作如下:

root@pve48:~# ceph osd tree

ID CLASS WEIGHT   TYPE NAME      STATUS REWEIGHT PRI-AFF

-1         18.00357 root default                             

-3          4.91006     host pve48                        

 0     hdd  1.63669         osd.0      up    1.00000 1.00000

 1     hdd  1.63669         osd.1      up    1.00000 1.00000

 2     hdd  1.63669         osd.2      up    1.00000 1.00000

-5          4.91006     host pve49                        

 3     hdd  1.63669         osd.3      up    1.00000 1.00000

 4     hdd  1.63669         osd.4      up    1.00000 1.00000

 5     hdd  1.63669         osd.5      up    1.00000 1.00000

-7          4.91006     host pve50                        

 6     hdd  1.63669         osd.6      up    1.00000 1.00000

 7     hdd  1.63669         osd.7      up    1.00000 1.00000

 8     hdd  1.63669         osd.8      up    1.00000 1.00000

-9          3.27338     host pve51                         

9           hdd  1.63669         osd.9     DNE        0        

10     hdd  1.63669         osd.10    DNE          0  

操作完成后,故障节点的osd状态从down变成了DNE

6.       删除故障节点的ceph磁盘,操作如下:

root@pve48:~# ceph osd crush rm osd.9

removed item id 9 name 'osd.9' from crush   map

root@pve48:~# ceph osd crush rm osd.10

removed item id 10 name 'osd.10' from crush   map

 

7.       从ceph集群中删除物理节点,操作如下:

root@pve48:~# ceph osd crush rm  pve51

removed item id -9 name 'pve51' from crush   map

 

8.       执行指令 ceph osd tree 查看状态,看是否把故障节点从ceph集群清理出去。

 

ü  从集群中删除故障节点

 

Ø  集群上的操作

登录集群中任意正常节点,执行如下指令进行驱逐操作:

root@pve48:~# pvecm  delnode pve51

Killing   node 4

 

Ø  故障机恢复操作

最好全部干掉,重新安装系统,并用新的ip地址,加入集群。


本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

proxmox集群节点崩溃处理 的相关文章

  • Proxmox ve(PVE) 显示CPU和硬盘温度、UPS信息

    1 安装CPU温度检测软件sensors apt install lm sensors y 传感器探测 xff0c 命令 xff1a sensors detect 全部选择yes即可 xff0c 可能其中一个地方提示 ENTER xff0c
  • cloud-init镜像.qcow2镜像导入并启动Proxmox VE虚拟机

    cloud images下载地址 本文大纲参考下文并加入了自己的实践 xff1a proxmox cloud init镜像模板下载 xff08 centos ubuntu debian xff09 Prokvm云管系统 XMBILLION
  • Proxmox VE 超融合集群实践真传

    第1章 老司机眼中的私有云 3 1 1私有云的定义 3 1 2私有云适用场景 4 1 3私有云行业现状 6 1 4私有云技术要求 xff08 针对Proxmox VE平台 xff09 7 第2章 开源私有云神器Proxmox VE 8 2
  • Proxmox VE 超融合集群创建多个Ceph Pool

    作者 xff1a 田逸 xff08 vx formyz xff09 创建多Ceph Pool的目的 Proxmox VE集群上的虚拟机运行在高速磁盘NVME 而虚拟机附属的数据 xff0c 则指定到低速 廉价 容量大的磁盘空间 为了高可用性
  • Proxmox VE /Debian /Ubuntu 设置合上笔记本盖子不休眠的方法

    书接上回和上上回 众所周知 xff0c 服务器是没有AB面的 xff08 KVM当然不算了 xff09 xff0c 燃鹅笔记本有 xff0c 不能让屏幕一直打开亮着吧 xff0c 但是默认都是关闭盖子休眠 xff0c 咋办呢 i i xff
  • 使用Proxmox 和 Deskpool 搭建桌面云系统

    Proxmox VE是一套开源的虚拟化软件 xff0c 支持KVM和LXC Deskpool是一套桌面虚拟化管理系统 支持Hyper V XenServer Proxmox等虚拟化平台 本文介绍了基于Proxmox搭建Deskpool桌面虚
  • proxmox集群节点崩溃处理

    问题描述 在现有集群加入一个物理节点 xff0c 接着再此节点创建ceph监视器 创建OSD 从宿主机系统执行ceph osd tree查看状态 xff0c 创建起来的几个OSD状态都正常 xff08 up xff09 xff0c 从pro
  • winscp连接nas root账户拒绝访问_基于PROXMOX VE的家庭NAS搭建方案

    本文图片较多 xff0c 有限流量党慎入 xff0c 部分内容参考过网络上已有文章 xff0c 所有工具收集自互联网 1 硬件选择 我定下的目标是家用NAS xff0c 而且要价格便宜 xff01 耗电量要低 xff0c 但是性能又不能太差
  • proxmox VE安装Windows虚拟机(包括virtIO驱动)及SPICE远程桌面配置

    一 准备工作 下载win7镜像和virtio win 0 1 173 iso镜像 xff08 io虚拟化驱动 xff09 xff0c 通过远程管理界面上传至local存储 proxmox版本 xff1a proxmox 6 2 二 安装 x
  • DoraOS连接Proxmox VE搭建简单桌面云

    最近公司想换桌面云 xff0c 我就说想搭建一个Proxmox VE环境 xff0c 问我为什么要用Proxmox 简单说就是好用 xff0c 相对于Xendesktop和horizon xff0c 以及各种厂商的VDI解决方案 xff0c
  • DoraCloud for Proxmox桌面云上启用NVIDIA Tesla P4的vGPU功能

    Proxmox virtualization environment xff0c 简称PVE xff0c 是一个开源免费的基于linux的企业级虚拟化方案 xff0c 功能不输专业收费的VMware 简单的说 xff0c PVE是一个基于D
  • Proxmox VE(PVE) 添加Web控制台显示CPU和主板温度

    PVE 默认是没有CPU和主板温度显示的 xff0c 为方便使用 xff0c 我们自己加上 实际效果 版本和软件 Virtual Environment 6 1 3putty 或 PVE自带的Shell 或 MobaXterm 等工具 安装
  • PROXMOX 防火墙的奇怪问题

    第一次遇到这个问题是这样的 xff0c 一旦开启PROXMOX 的群集防火墙 xff0c prokvm云管平台的认证机制就失效 最奇怪的是一定要删除 etc pve firewall目录下的cluster fw文件并重启物理服务器 xff0
  • 4. 在 Proxmox VE 安装Ceph

    4 在 Proxmox VE 安装 Ceph 1 安装 按图操作即可 2 参考 1 https blog csdn net ggeol article details 109112815
  • 5. 在 Proxmox VE 配置Ceph

    Pool 用于存储虚拟机的img xff0c 如果需要实现虚拟机的HA xff0c 那么虚拟机必须创建在Ceph上 xff0c 通过Ceph的多副本来实现故障恢复 CephFS 在PVE中主要用于共享文件 xff0c 如iso文件等 创建O
  • 6. Proxmox VE安装Ceph Dashboard

    6 Proxmox VE安装Ceph Dashboard span class token function apt get span span class token function install span ceph mgr dash
  • Proxmox VE与常见的私有云方案比较(中)

    2 2 SmartX私有云解决方案 SmartX这家公司挺有意思的 xff0c SmartX 是番文的叫法 xff0c 这家公司好像不愿意或者是有意不让人知道他的中文名称叫啥 xff0c 不知道这是不是传说中的卑于内而媚于外 你翻遍了Sma
  • Proxmox虚拟环境搭建

    一 Proxmox VE简介 ProxmoxVE 是一个完整的 开源的企业虚拟化服务器管理平台 它在单个平台上紧密集成了 KVM 管理程序和 Linux 容器 LXC 软件定义的存储和网络功能 通过集成的基于 web 的用户界面 xff0c
  • Proxmox VE(PVE)添加硬盘做存储

    PVE安装后会默认将系统盘分出local和local lvm xff0c 但有时还需要别的硬盘作为虚拟主机的数据盘 xff0c 所以就需要添加硬盘进行扩充 一 硬盘分区 格式化 首先需要先先看下需添加硬盘的设备名称 xff0c 如下图的 d
  • Proxmox 7.3 换国内源安装

    Proxmox 7 2 默认来自官方的源 xff0c 国内慢的一逼高峰期只有个几KB的速度 xff0c 所以换源 Debian系统源 阿里云源 和中科大proxmox源 一 更换阿里云的源 vi etc apt sources list 替

随机推荐

  • 【转载】取消Debian系统自动锁屏

    Linux的自动锁屏功能 xff0c 会在你离开屏幕的两分钟 xff0c 甚至更短的时候内 xff0c 将屏幕锁住 xff0c 需要输入密码才能进入Linux系统 可按下图设置 xff0c 关掉Linux自动锁屏功能 System gt P
  • 如何cout输出CString对象?

    CString str 61 34 HeyLook 34 char pch 61 new char str GetLength 43 1 pch 61 str GetBuffer str GetLength 43 1 str Release
  • python中Tuple详解

    python中Tuple详解 另外 还有一个和list 很像的数据tuple 中文叫元组 他和list的主要区别就是 tuple是一开始就定义好的 即 assign first 之后就永远不能被改变了 所以 一般全局比较重要的数据 我们都是
  • 自动分析局域网内网速慢的电脑---结合IPERF,TASK SCHEDULE,PYTHON,MAIL

    今天写的 用IPERF作测试局域网速度的工具 用AD域组策略推送给客户端 xff0c xcopy y XXX XXX Iperf c Iperf 然后 xff0c 客户端会在每次LOGON的执行测试网速的BAT文件 xff0c 并将结果存放
  • 对IIC总线时序的一点理解以及ACK和NACK(NAK)

    参考自 xff1a http blog chinaunix net uid 16100003 id 3059814 html 关于IIC的响应问题 xff1a 对于每一个接收设备 xff08 从设备 xff0c slaver xff09 x
  • Permutation test(排列(组合)检验)

    2019独角兽企业重金招聘Python工程师标准 gt gt gt 对Permutation test 的首次描述可追溯到上个世纪30年代 Fisher 1935 和Pitman 1937 介绍了其在线性统计模型中的应用 但该法计算工作量过
  • windows全局变量设置

    今天安装jave RE xff0c 需要设置全局变量 xff0c 除了图形界面的配置外 xff0c 有没有其他的方式设置呢 xff0c 开始以为set可以 xff0c 看了半天没整明白到网上search下 xff0c 见到了几种方法 xff
  • ProxmoxVE 单机模式安装(2台服务器非集群)

    上面左边是我的个人微信 xff0c 如需进一步沟通 xff0c 请加微信 右边是我的公众号 Openstack私有云 xff0c 如有兴趣 xff0c 请关注 公司有两台测试服务器 xff0c 是华为的RH2288 V3 xff0c 配置6
  • Desktop.ini

    类型1 ShellClassInfo IconFile 61 abc exe abc ico IconIndex 61 0 类型2 ShellClassInfo IconResource 61 abc exe abc ico 0 类型2 的
  • linux下安装ntop

    Ntop是一种监控网络流量工具 xff0c 用ntop显示网络的使用情况比其他一些网络管理软件更加直观 详细 Ntop甚至可以列出每个节点计算机的网络带宽利用率 他是一个灵活的 功能齐全的 xff0c 用来监控和解决局域网问题的工具 xff
  • iOS学习24之UIControl及其子类

    1 UIControl初识 1 gt 概述 UIControl 是有控制功能 的视图 如UIButton UISlider UISegmentedControl等 的父类 只要跟控制有关的控件 都是继承于该类 UIControl 这个类通常
  • URL中“#” “?” &“”号的作用

    1 10年9月 xff0c twitter改版 一个显著变化 xff0c 就是URL加入了 34 34 符号 比如 xff0c 改版前的用户主页网址为http twitter com username改版后 xff0c 就变成了http t
  • 强化路由器IOS安全-禁用不必要的服务

    Cisco Discovery Protocol CDP xff1a 思科发现协议 xff08 CDP xff1a Cisco Discovery Protocol xff09 CDP 基本上是用来获取直连设备的协议地址以及发现这些设备的平
  • 【OCR技术系列之三】大批量生成文字训练集

    放假了 xff0c 终于可以继续可以静下心写一写OCR方面的东西 上次谈到文字的切割 xff0c 今天打算总结一下我们怎么得到用于训练的文字数据集 如果是想训练一个手写体识别的模型 xff0c 用一些前人收集好的手写文字集就好了 xff0c
  • ubuntu安装mysql报错_在Ubuntu上安装mysql数据库和遇到的问题

    如果上面没有成功 xff0c 而出现了这样的问题的话 xff1a Mysql ERROR 1045 28000 Access denied for user 39 root 39 64 39 localhost 39 using passw
  • debian wheezy 使用

    为什么80 的码农都做不了架构师 xff1f gt gt gt 准备 xff1a 1 启动盘制作 软件 xff1a windows下lililinuxusbcreator linux下unetbootin debian 7 0 iso mi
  • Debian 7 安装 Wireshark

    2019独角兽企业重金招聘Python工程师标准 gt gt gt 1 安装Wireshark sudo apt get install wireshark 如果以非root权限运行wireshark xff0c 可能会出现 No inte
  • win7桌面仿linux桌面,windows10开启 linux子系统桌面,巨详细,值得一藏-win7桌面主题...

    题记 xff1a 安装完微软windows10的ubuntu子系统之后 xff0c 想打开这款子系统的桌面 xff0c 一直摸不着头脑 找了很多教程 xff0c 都有点凌乱 xff0c 在此整理一下 0 备份原 get源文件 sudo mv
  • 石器时代地图->魔力宝贝地图

  • proxmox集群节点崩溃处理

    问题描述 在现有集群加入一个物理节点 xff0c 接着再此节点创建ceph监视器 创建OSD 从宿主机系统执行ceph osd tree查看状态 xff0c 创建起来的几个OSD状态都正常 xff08 up xff09 xff0c 从pro