VSAN故障案例分享——超经典三场景

2023-11-12

前言:虽然个人认为现VSAN的常规运维都已经很成熟便捷了(像磁盘更换),但还是有诸多需要注意的地方。近期又突然跟VSAN项目有了一些交集,整理原有资料时,发现有几个不错的案例,故拿出来出大家分享下。如有不足之处,也希望大佬们帮指正。

 

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

 

1.山西某大学商学院VDIIDV的项目(VSAN磁盘被写满问题

 

背景需求:150个用户的大电教习的上课VDI需求,需要能切换多个教学模版以满足不同环境的上课类型,并能一键切换到本地终端系统,以满足英语四六级口语考试和计算等级教室。

解决方案:VMware vsphere +VSAN +VDI产品 满足学生上课需求。 使用IDV产品方案满足本地终端的考试需求。

硬件平台:5台服务器+交换机+150个X86终端。(其中X86终端为双系统模式,既IDV+VDI双系统,可通过管理平台一键切换)

 

问题:收到代理商反馈学校VSAN群集内所有虚拟机近两个星期运行速度慢,已排服务器硬件,网络没有问题。

 

解决:1远程排查服务器硬件,网络正常。

2、检查vsan健康检查,有提示vsan容量使用告警信息。查看vsan容量,使用率接近90%。

3、与客户沟通了解,学校近期有新增开课班级。VDI桌面新增100多个。

4、检查学生个人数据盘占用大量空间(占VSAN总容量的30%)(且多为视频,MP3,游戏)。

5、临时解决方案,与学校老师沟通,清理部分学生的个人数据盘,释放空间。

6、最终解决方案,增加节点服务器,扩容VSAN容量总空间。

总结:

发生“vSAN磁盘写满”时应该做什么?

  • 关闭正在运行的vSAN释放vswap文件
  • 迁移VM到其他存储
  • 添加新的资源到vSAN当中,例如新的主机,新的磁盘。
  • (谨慎)调整VM的存储策略,例如从FTT=1到FTT=0,从"thick"调整到“thin”
  • 检查故障的主机/磁盘/磁盘组,尝试把他们恢复到正常状态
  • (谨慎)删除一些不重要的VM

如何避免类似的问题发生?

  • 确保vSAN有足够的使用可用空间(厂家建议使用率不超70%)
  • 培养良好的使用习惯,定期进行vSAN健康检查。

 

 

2.安徽某职业教育中心电教室项目(节点故障RAID卡故障,RAID0

 

背景需求:两个电教室共120多用户,需要满足高中专的教学需求。

解决方案:VMware vsphere +VSAN +VDI产品产品的解决方案

硬件平台:5台服务器做VMware vsphere +VSAN  +120台RAM架构终端

 

问题:收到学校老师反馈,VSAN容量变少,一台服务器开不了机。但学生机还可正常使用。

 

解决: 1、通过代理商与老师电话沟通,现VDI平台,VC平台正常,服务器没有配置远程BCM,老师对硬件也不熟悉

   2、学校出费用,打飞的,跑到现场。

  3、检查VC平台,故障主机状态为“未响应”。VSAN群集状态正常,FTT=1,

 4、检查服务器,不知名小厂家服务器,开机检查为RADI卡故障。更换同型号RADI卡

5、对照其他主机RAID信息,容量盘,缓存盘,均为RAID0配置。

6、沟通厂家,重做RAID,重装系统,重新添加到VSAN群集内

总结:

1、客户VSAN群集为BYO配置(用户自定义组合配置)多项VSAN健康检测告警。

2、RAID卡故障,且磁盘使用的RAID0

3、未使用正确IO控制器的配置方式

4、RAID0容量磁盘故障,增加运维风险,不能热插拔,需求通过RAID卡重做RAID0再加入

 

 

3.厦门某连锁品牌店 VSAN群集异常关机,断电,VCVSAN群集内

 

背景需求:原办工电脑老旧,需要利旧并满足150个用户的办工需求。以减轻维护人员的工作量并集中管理用户

解决方案: VMWare Vsphere +VSAN +windows AD 解决方案

硬件平台:4台服务器+网络+部分终端 +旧电脑利旧

 

问题:接到客户反馈,公司新机房断电,所有四台物理机已开机ESXI主机可ping通,但是VC,VDI桌面都无法登录。

 

解决: 1、远程登录,登录每台ESXI主机,查找确定VC所在位置

2、开启VC平台,并设置VC和VDI平台随主机启动。

3、检测VSAN群集状态,VSAN健康状态为正常

4、检测数据,正常

 

总结:本次问题有,VSAN群集异常断电恢复。VC在VSAN群集内。

1、同时为所有主机回电,

2、等待主机VSAN完成自检校验

3、检验完成前,不能SSH,Client端登录ESXI主机

4、VC在VSAN群集中需要有正确的开关机顺序

VCVSAN群集中关机顺序:

1、关闭除VC外的所有VM机器

2、关闭VC虚拟机,WEB页面将不可用

3、使用命令将所有ESXI主机进入维护模式

#esxcli system maintenancMode set -e true -m noAction

4、关闭所有主机

VCVSAN群集开机顺序

1、优先开启VC所在的ESXI主机,再开启所有其它ESXI主机

2、使用client登录VC所在ESXI,退维护模式,启动VC虚拟机

3、VC正常后,登录VC控制台,对其它ESXI主机退出维护模式

4、检测VSAN分钟状态。

5、开启其它VM

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

VSAN故障案例分享——超经典三场景 的相关文章

  • IPV6 阿里DDNS

    IPV6 阿里DDNS 因为需要在家搭建一套环境 并且需要公网能访问 国内的ipv4的地址 各大运营商基本都不会分配ipv4地址 电信宽带好像有地方可以 但是听说很贵 而且是动态的 每过段时间就会改变 发现移动宽带的公网ipv6地址是可以获
  • 微信为什么更受欢迎?

    想必大家都和我一样 曾是一个QQ的忠实用户 认为QQ是最受欢迎的社交软件 其实不然 微信比QQ更受欢迎 只是我们根本不知道微信 所以 我们来谈谈微信NB在那里吧 1 QQ的用户是年轻化 娱乐性强 而微信让不是qq用户的人也加入进来 变得更加
  • CentOS通过nvm安装管理node

    今天搭建CentOS node 环境 原本打算源码安装 环境编译一直出错 为节省时间 直接用nvm 来下载和管理node nvm 是一个开源软件 大家可以在github 上面 下载它的源码https github com creationi

随机推荐

  • 【AI with ML】第 14 章 :在 iOS 应用程序中使用 TensorFlow Lite

    大家好 我是Sonhhxg 柒 希望你看完之后 能对你有所帮助 不足请指正 共同学习交流 个人主页 Sonhhxg 柒的博客 CSDN博客 欢迎各位 点赞 收藏 留言 系列专栏 机器学习 ML 自然语言处理 NLP 深度学习 DL fore
  • Applications(4)

    CONTENTS Other Applications In this section we cover a few other types of applications of deep learning that are differe
  • java使用smb操作win共享文件夹

    package com zky util import jcifs smb SmbException import jcifs smb SmbFile import jcifs smb SmbFileInputStream import j
  • 新手LearnOpenGL纹理不显示的部分解决方法

    项目场景 在LearnOpenGL学习中遇到的一些问题 照着写但是纹理加载不出来或者两张纹理只加载一张 问题描述 lt 纹理加载不出来 gt 1 文件路径是否正确 是否输出texture load fail等提示 设置了成功检查才会有提示
  • RK3568 Camera 使用

    RK3568 Camera 使用 RK3568 Sensor驱动开发移植 1 RK3568 Sensor驱动开发移植 2 RK3568 Sensor驱动开发移植 3 MIPI CSI用法 RK3568平台仅有一个标准物理mipi csi2
  • 修改pip下载源

    pip国内的一些镜像 阿里云 中国科学技术大学 豆瓣 清华大学 中国科学技术大学 修改源方法一 linux 修改 pip pip conf 如无就创建一个新的 修改内容为 global index url https pypi tuna t
  • 三、C语言进阶:二维指针

    3 二维指针 3 1 什么是二维指针 二维指针与一维指针一样都是保存变量的地址 实例 一维指针存放变量地址 二维指针存放一维指针地址 include
  • Java 多线程启动为什么调用 start() 方法而不是 run() 方法?

    多线程在工作中多多少少会用到 我们知道启动多线程调用的是 start 方法 而不是 run 方法 你知道原因吗 在探讨这个问题之前 我们先来了解一些多线程的基础知识 线程的状态 Java 中 定义了 6 种线程状态 在 Thread 类可以
  • 德标螺纹规格对照表_螺栓螺母德标 欧标 国标对照表

    新德标 旧德标 英文名 中文名 国标 DINENISO4014 DIN931 1 Hexagonheadbolts ProductgradesAandB I SO4014 1999 六角头螺栓 GB T5782 2000 DINENISO4
  • muduo网络库定时器的实现

    一 函数介绍 常见的与时间相关的函数有 sleep alarm usleep nanosleep clock nanosleep gettimer settitimer timer create timer settime timer ge
  • Golang(2)——入门语法之基本语法(函数、变量、类型(自动推导、强转)、流程控制 for、 if else、 switch、defer)

    基本语法 包 函数 var变量 const常量 类型 流程控制 更多类型 包管理 go中没有public private protected等访问控制修饰符 它是通过字母大小表示能否被其他方访问或者调用的 大写的方法就表示是可以被调用的 相
  • C ~ 指针

    指针可以简化一些 C 编程任务的执行 且一些任务 如动态内存分配 没有指针无法执行 所以 学习指针是很有必要的 每个变量都有一个内存位置 每一个内存位置都定义了可使用连字号 运算符访问的地址 它表示了在内存中的一个地址 请看下面的实例 它将
  • 应聘Java笔试时可能出现问题及其答案

    Java基础方面 1 作用域public private protected 以及不写时的区别 答 区别如下 作用域 当前类 同一package 子孙类 其他package public protected friendly private
  • Java 小例子:图书馆课程设计(Java 8 版)

    用 Java 模拟一个图书馆 包括创建图书 创建读者 借书 还书 列出所有图书 列出所有读者 列出已借出的图书 列出过期未还的图书等功能 每个读者最多只能借 3 本书 每个书最多只能借 3 个星期 超过就算过期 这个例子跟 http blo
  • 16 bit float 存储_C++:float型数据存储原理及精度丢失溢出深入解析

    电子计算机只能存储0和1 人类世界所能认识的任何数据都需要通过转换为二进制再进行存储 整数 int 型转换为二进制存储很好理解 那么float型数据计算机又是怎么存储的呢 常说的浮点型数据精度丢失和数据溢出又是怎么回事呢 浮点数示意图 位和
  • MATLAB 基础知识 数据类型 分组数组 对分类数据绘图

    本文演示了如何对分类数组中的数据绘图 加载样本数据 加载从 100 位患者收集的样本数据 load patients whos Name Size Bytes Class Attributes Age 100x1 800 double Di
  • 用Javascript实现随机抽奖

    用Javascript实现随机抽奖 思路 首先我们先把一组元素保存到数组arr中 再利用随机生成的整数和数组下标关联起来 这里的重点就是怎样获取随机的整数 下面跟着我一起来看看 HTML部分
  • Linux基础命令

    命令 关闭防火墙1 systemctl stop firewalld service 关闭防火墙程序 systemctl disable firewalld service 关闭开机自启动 关闭防火墙2 firewall cmd set d
  • UVM基础-m_sequencer和p_sequencer

    一 Sequencer问题的由来 1 1 sequence与sequencer之间的数据交互 在UVM的sequence机制中 sequence其实是独立与验证环境之外的部件 作为uvm object而存在 那么sequence最终是要在某
  • VSAN故障案例分享——超经典三场景

    前言 虽然个人认为现VSAN的常规运维都已经很成熟便捷了 像磁盘更换 但还是有诸多需要注意的地方 近期又突然跟VSAN项目有了一些交集 整理原有资料时 发现有几个不错的案例 故拿出来出大家分享下 如有不足之处 也希望大佬们帮指正