Rancher RKE K8s 集群 etcd 恢复

2023-05-16

背景

在 Rancher 中基于 RKE 创建的 K8s 集群，因为服务器磁盘故障，导致 3个 master 节点有2个节点的 etcd 数据文件损坏，导致整个集群不可用。

etcd 三个节点集群时，如果有 2个节点损坏，仅剩余的一个 etcd 节点是不能正常通过 etcdctl 命令操作的。

因为是基于 Rancher RKE 的集群，所以在这个问题的情况下可以直接通过其默认备份的快照文件进行 etcd 恢复，如果没有做特别配置，etcd 和集群的快照备份文件在 /opt/rke/etcd-snapshots 中，默认是每 12小时生成一次快照。

这个备份文件中包含两个东西：一个是 etcd 的快照 db 文件，一个是该 k8s 集群的状态文件，里面包含 kubeconfig、证书等内容。

Kubernetes 集群状态由 Kubernetes 集群中的集群配置文件 cluster.yml 和组件证书组成，由 RKE 生成。

恢复etcd步骤

在恢复 etcd 之前，请先停止该 master 服务器上的 etcd 容器 docker stop etcd。

1、创建临时目录 /home/restore/

2、下载 etcdctl 文件，官方地址：https://github.com/etcd-io/etcd/releases

3、复制一个 /opt/rke/etcd-snapshots 中的快照文件到 /home/restore/ 中，解压缩，如下文件结构示例：

[root@k8s-dev-node1 restore]# tree
.
├── backup
│   └── c-8d6fk-rl-bmmmn_2023-01-17T19:33:26Z
├── c-8d6fk-rl-bmmmn_2023-01-17T19:33:26Z.zip
├── etc
│   └── kubernetes
│       └── c-8d6fk-rl-bmmmn_2023-01-17T19:33:26Z.rkestate
├── etcd-v3.5.7-linux-amd64
│   ├── Documentation
│   │   ├── dev-guide
│   │   │   └── apispec
│   │   │       └── swagger
│   │   │           ├── rpc.swagger.json
│   │   │           ├── v3election.swagger.json
│   │   │           └── v3lock.swagger.json
│   │   └── README.md
│   ├── etcd
│   ├── etcdctl
│   ├── etcdutl
│   ├── README-etcdctl.md
│   ├── README-etcdutl.md
│   ├── README.md
│   └── READMEv2-etcdctl.md
└── etcd-v3.5.7-linux-amd64.tar.gz

其中 etcd-v3.5.7-linux-amd64.tar.gz 是下载的 etcdctl 文件压缩包，文件 c-8d6fk-rl-bmmmn_2023-01-17T19:33:26Z.rkestate 是该 K8s 集群的各种内容和证书等合并的文件，文件 c-8d6fk-rl-bmmmn_2023-01-17T19:33:26Z 就是我们需要的 etcd 快照 db 文件。

5、删除 /var/lib/etcd 目录，你最好改个名或者移走别直接删了（如果这个目录存在肯定不行，下面恢复快照时 etcdctl 会自动创建）

4、在 etcd-v3.5.7-linux-amd64 目录中执行快照恢复命令，如下：

./etcdctl snapshot restore /home/restore/backup/c-8d6fk-rl-bmmmn_2023-01-17T19:33:26Z --data-dir="/var/lib/etcd

5、最后启动 etcd 容器，查看日志就发现已经正常了，第二个机器同理操作，如果三个 master 都坏了，只要快照文件在，分别操作后启动容器也是没问题的。

参考资料：https://www.xtplayer.cn/rancher/backup-restore/rancher-custom-cluster-restore/

（END）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Rancher RKE K8s 集群 etcd 恢复的相关文章

k8s安装遇到过的一些问题

无法获取recomended yaml文件 root k8master1 wget https raw githubusercontent com kubernetes dashboard v2 7 0 aio deploy recomme
K8s-yaml的使用及命令

YAML配置文件管理对象对象管理创建deployment资源 kubectl create f nginx deployment yaml 查看deployment kubectl get deploy 查看ReplicaSet kub
k8s英伟达GPU插件（nvidia-device-plugin）

安装方法 Installation Guide NVIDIA Cloud Native Technologies documentation 1 本地节点添加 NVIDIA 驱动程序要求 NVIDIA drivers 384 81 先确保
Prometheus监控 controller-manager scheduler etcd

用prometheus插件监控kubernetes控制平面例如您使用kubeadm构建k8s集群然后kube控制器管理器 kube调度程序和etcd需要一些额外的工作来进行发现 create service for kube cont
docker的联合文件系统（UnionFS）

docker最大的贡献就是定义了容器镜像的分层的存储格式 docker镜像技术的基础是联合文件系统 UnionFS 其文件系统是分层的这样既可以充分利用共享层又可以减少存储空间占用联合挂载系统的工作原理读如果文件在upperdir
单机版kubernetes

Kubernetes 集群的搭建是有一定难度的官方安装推荐了MiniKube作为单机调试学习 1 centos安装 1 1 先决条件安装VirtualBox KVM Note Minikube 也支持 vm driver none 选
calico分配网络使k8s节点指定固定网段

文章目录 calico分配网络使k8s节点指定固定网段 1 配置calicoctl 1 1 下载calicoctl 1 2 配置calicoctl 1 3 测试calicoctl 2 配置ippool 3 添加ippool 4 创建pod测
Deployment Controller 典型使用场景

1 重新调度 Rescheduling 不管想运行 1 个副本还是 1000 个副本副本控制器都能确保指定数量的副本存在于集群中即使发生节点故障或 Pod 副本被终止运行等意外状况 2 弹性伸缩 Scaling 手动或者通过自动扩容代理
etcd 集群搭建及常用场景分析

概述 etcd 是一个分布式一致性k v存储系统可用于服务注册发现与共享配置具有以下优点简单相比于晦涩难懂的paxos算法 etcd基于相对简单且易实现的raft算法实现一致性并通过gRPC提供接口调用安全支持TLS通信并可
分布式注册中心-etcd

etcd是什么 etcd 设计为提供高可用强一致性的小型 kv 数据存储服务 etcd v2 和 v3 比较 v3使用 gRPC protobuf 取代 v2的http json 通信提高通信效率 gRPC 只需要一条连接 http是每
k8s--基础--23.1--认证-授权-准入控制--介绍

k8s 基础 23 1 认证授权准入控制介绍 1 介绍 k8s对我们整个系统的认证授权访问控制做了精密的设置对于k8s集群来说 apiserver是整个就集群访问控制的唯一入口我们在k8s集群之上部署应用程序的时候可以通过宿
如何解决K8S节点显示NotReady

文章目录 kubernetes节点断电重启 kubernetes节点断电重启背景运行的好好的k8s集群某天断电发现一个节点炸了显示NotReady kubectl get nodes 那么如何查找问题呢我们用它 journalc
Kubernetes 集群部署 ------ 二进制部署（二）

单节点 https blog csdn net Yplayer001 article details 104234807 先具备单master1节点部署环境三 master02部署优先关闭防火墙和selinux服务在master01上
k8s Failed to create pod sandbox错误处理

错误信息 Failed to create pod sandbox rpc error code Unknown desc failed to get sandbox image k8s gcr io pause 3 2 failed to
k8s问题 CrashLoopBackOff

我们创建资源发现资源出现CrashLoopBackOff解决 CrashLoopBackOff 告诉我们 Kubernetes 正在尽力启动这个 Pod 但是一个或多个容器已经挂了或者正被删除 root localhost kubectl
k8备份与恢复-Velero

简介 Velero 是一款可以安全的备份恢复和迁移 Kubernetes 集群资源和持久卷等资源的备份恢复软件 Velero 实现的 kubernetes 资源备份能力可以轻松实现 Kubernetes 集群的数据备份和恢复复制 ku
DHorse v1.3.2 发布，基于 k8s 的发布平台

版本说明新增特性构建版本部署应用时的线程池可配置化优化特性构建版本跳过单元测试解决问题解决Vue应用详情页面报错的问题解决Linux环境下脚本运行失败的问题解决下载Maven安装文件失败的问题升级说明下载v1 3 2安
如何在 Rancher - Kubernetes 功能门中启用挂载传播？

如何在 Rancher 2 0 中为我的集群启用功能门我需要启用 feature gates MountPropagation true 这将使我能够使用 StorageOS CephFS 等存储解决方案这里有 2 个用例 Ranche
如果 automountServiceAccountToken 设置为 false，Pod 服务帐户的用途是什么？

服务帐户的 API 凭证通常挂载在 pod 中如下所示 var run secrets kubernetes io serviceaccount token 此令牌允许 Pod 中的容器化进程与 API 服务器进行通信 Pod 服务帐户的
在 Kubernetes 集群上使用 etcdctl 时出现错误：“证书由未知机构签名”

我正在运行 minikube 并且正在尝试列出 ETCD 上的密钥我下载了最新的etcdctl来自github的客户端 https github com etcd io etcd releases download v3 3 18 etc

随机推荐

ROS实现串口通信

虚拟串口的搭建参考Linux下添加虚拟串口 xff0c 接收和发送数据 com py文件代码如下 xff1a span class token comment usr bin env python span span class toke
基于Linux的UART驱动框架源码分析笔记

文章目录前言一 I MX6ULL串口接收和发送方式1 非DMA方式1 1 接收方式1 2 发送方式 2 DMA方式2 1 接收方式2 2 发送方式二 UART驱动注册1 uart register driver 函数解析2 serial
cmake install 命令

install指令用于定义安装规则 xff0c 安装的内容可以包括目标二进制动态库静态库以及文件目录脚本等需要引入一个新的cmake指令和一个非常有用的变量 cmake install prefix 法一 xff1a cmake
基于全景相机的视觉里程计算法研究

一视觉里程计视觉里程计技术首先建立相机的成像模型 xff0c 接着通过标定算法计算相机参数 xff0c 最后建立相邻图像的关联并估计相机运动轨迹 1 1相机在空间中运动的描述描述相机在三维空间中的运动状态 xff0c 即求解相机在空间
多旋翼无人机组成（小白上路）

1 无人机组成 1 1 机架四旋翼最常见的两种机身布局如下图 xff1a 机架指无人机的承载平台 xff0c 通常用轴距衡量机架的大小 xff0c 轴距是指对角线两个螺旋桨的距离 xff0c 一般以mm为单位 xff0c 如F330表示轴
freertos创建任务后进入prvStartFirstTask发生HardFault_Handler中断

在stm32f103zet6环境中移植成功freertos之后 xff0c 创建第一个任务之后 xff0c 会进入硬件中断 xff0c 经过排查发现死在了prvStartFirstTask 排查原因 xff1a 发现是启动文件startup
解决无法对docker容器进行端口映射的问题

初学docker的时候 xff0c 不知道为啥 xff0c 按着教程里打的代码 xff0c 最后却出现了映射失败的情况即 xff1a 在docker内部设置的映射端口 xff0c 外部却没有办法访问想了想 xff0c 不外乎两个原因 x
K8s手工创建kubeconfig

我们通过 kubectl 命令行连接 k8s apiserver 时需要依赖 kubeconfig 文件 kubeconfig 文件通常包含了 context xff08 上下文 xff09 列表 xff0c 每个 context 又会引用
grep命令总结

grep命令总结 1 关于 nbsp ps ef grep php grep v grep wc l grep v grep 代表在查询的最终结果中去掉grep命令本身 wc l 标示统计查询到的结果数量 grep常用命令 1 grep n
Ubuntu 16.04安装realsense D435i SDK以及realsense-ros

先直接上一个报错信息 xff0c 折腾了半天才解决在使用catkin make编译realsense ros时 xff0c 报错 traversing 4 packages in topological order realsense c
关于视觉SLAM的一些常识（纯小白学习笔记）

本文只是小白对于视觉slam的一个非常泛的介绍 xff0c 对于视觉slam中的数学运算均没有提及 xff0c 适合于对没有接触过视觉slam的新人进行一个简单的科普作者即小白 xff0c 文章如有错误 xff0c 非常非常非常欢迎指正
使用CubeMX快速搭建FREERTOS

如何使用STM32快速搭建FREERTOS 小编之前一直使用正点原子家的产品 xff0c 最近准备学习学习TOUCHGFX 要用到HAL 43 RTOS 原子家的使用起来不方便于是琢磨着使用STM32CUBEMX直接生成FREERTOS
使用DMA+SPI驱动Aliyun Things 上的ST7789H2 LCD屏幕

目录前言硬件CUBEMX时钟树GPIOSPI 代码部分LCD驱动中断服务函数测试代码现象前言 1 xff1a 驱动程序参考自https blog csdn net BearPi article details 104311705 2 x
SLAM测试5-YGZ-Stereo-Inertial（GAAS双目视觉ygz -立体惯性SLAM）

这篇主要测试GAAS开源无人机里用到的一种SLAM算法 xff0c 目的是先对该SLAM算法进行熟悉 xff0c 再开始入手GAAS视觉定位 GIThub上的代码地址为 xff1a https github com gaoxiang12 y
Linux之线程条件变量cond

概念 xff1a 条件变量不是锁 xff0c 要和互斥量组合使用条件变量就是生产者生产完成 xff0c 消费者才能使用 xff0c 如果没有产品 xff0c 消费者就会被条件变量cond阻塞等待生产者生产 xff08 生产者与消
Linux之线程-信号量sem_*

1 概念信号量可理解为进化版的互斥锁量 xff0c 允许多个线程访问共享资源由于互斥锁的力度比较大 xff0c 如果希望在多个线程间对某一对象的部分数据进行共享 xff0c 使用互斥锁是没有办法实现的 xff0c 只能将整个数据对象锁
4、树(中篇)

前言前节二叉树只能适用于静态查找不能实现动态插入删除等如何解决以下两个问题静态查找与动态查找针对动态查找数据如何组织 4 1 二叉搜索树 4 1 1 什么是二叉搜索树二叉搜索树 BST Binary Search Tree
SNMP源码分析

源码下载 http www net snmp org download html 源码目录结构 net snmp程序逻辑 xff08 1 xff09 main主函数 span class token macro property span
SNMP Trap的session问题

1 前言最近遇到了个问题 xff0c SNMPv3 Trap上报 xff0c 在snmp agent侧修改了用户密码 xff0c 管理站mibbroswer上没有修改trap用户的密码 xff0c 仍然可接收到trap上报消息通过Wir
Rancher RKE K8s 集群 etcd 恢复

背景在 Rancher 中基于 RKE 创建的 K8s 集群 xff0c 因为服务器磁盘故障 xff0c 导致 3个 master 节点有2个节点的 etcd 数据文件损坏 xff0c 导致整个集群不可用 etcd 三个节点集群时 xff

Rancher RKE K8s 集群 etcd 恢复

背景

恢复etcd步骤

Rancher RKE K8s 集群 etcd 恢复 的相关文章

随机推荐

热门标签

Rancher RKE K8s 集群 etcd 恢复的相关文章