rac集群节点级联重启故障分析

2023-11-17

author：skate
time：2012/07/16

无意中发现以前处理故障写的一篇文章，记录下来以备查找。

rac集群节点级联重启故障分析

环境：
os：linux
db：rac10g+ocfs2

rac数据库环境实际包含两个集群，一个是clusterware集群，一个是instance集群。他们的大概工作方式是：

1.如果clusterware先发现集群故障，他就会直接重组集群，尚存的节点锁住dead节点的journal，并恢复它；等clusterware重组之后，再通知上层的instance集群，使instance集群重组达到新的稳定状态

2.如果是instance集群先发现集群的故障，则rac会停止对外服务，并通知clusterware层集群完成集群重构，达到新的稳定状态，clusterware重构之后，在通知instance集群层，rac再开始重构；但是如果clusterware无法完成重构，那rac通过IMR机制自己重构集群以达到新的稳定状态

rac集群级联重启一般原因
主库的一个节点重启引起的voting磁盘hang住，导致其他节点无法访问，导致occsd进程故障，clusterware又检测到新集群故障，因此再次重组集群到新的稳定状态。

调整的根据
因为是由于voting磁盘长时间hang住不响应引起的其他节点的继续重启，

哪些参数可能因为磁盘hang引起重启
clusterware集群：o2cb的O2CB_HEARTBEAT_THRESHOLD每两秒更新一次系统文件（磁盘文件），以确定节点存活，如果超过阀值，就重启
rac集群：voting磁盘的disktimeout参数默认是200s,如果超过超过这个阀值，节点也会重启

我们的系统linux采用的多路径软件device-mapper-multipath

为了避免节点级联重启，可以通过增加clusterware的dead阀值来避免重启，根据以下公式（10.2.0.2版本以上）

O2CB_HEARTBEAT_THRESHOLD >= ((max(HW_STORAGE_TIMEOUT, SW_STORAGE_TIMEOUT) / 2) + 1)

disktimeout > max((O2CB_HEARTBEAT_THRESHOLD - 1) * 2, HW_STORAGE_TIMEOUT, SW_STORAGE_TIMEOUT)

所以将O2CB_HEARTBEAT_THRESHOLD=31调整为O2CB_HEARTBEAT_THRESHOLD=61（即由60秒增加到120秒），这样调整是为了给voting磁盘足够的recover时间，避免节点误重启

misscount参数先不调整，因为我们从重启的log里还没有直接发现是因为网络的原因，经过线下环境的测试发现，模拟ocfs2文件系统突然出问题，可再现和生产环境重启类似的日志信息。根据观察调整后情况，再看是否需要调整这个参数

调整O2CB_HEARTBEAT_THRESHOLD步骤
0.停止所有连接db的服务
1.停掉所有节点的crs
2.stop ocfs2服务
3.修改所有节点参数O2CB_HEARTBEAT_THRESHOLD
4.重启所有节点o2bc服务，启动ocfs2，启动crs服务
5.测试应用正常与否

影响
1、影响db对外服务时间
2、不会影响rac集群的稳定及数据的丢失

如果发现有异常问题，只需步骤把参数调回即可

参考文档
[ID 395878.1] [ID 457423.1] [ID 391771.1] [ID 294430.1]

---end---

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

rac集群节点级联重启故障分析的相关文章

.NetCore技术研究-ConfigurationManager在单元测试下的坑

最近在将原有代码迁移 NET Core 代码的迁移基本很快当然也遇到了不少坑重构了不少后续逐步总结分享给大家今天总结分享一下ConfigurationManager遇到的一个问题先说一下场景迁移 NET Core后已有的配置文
使用libvirt管理KVM虚拟机

使用libvirt管理KVM虚拟机一安装虚拟化管理工具 1 yum install virt manager libvirt libvirt python python virtinst 1 kmod kvm kvm kernel mo
登录界面测试用例设计

登录界面测试用例设计一界面测试点 1 界面的设计风格是否与UI的设计风格统一 2 界面中的文字简洁易懂 3 界面中没有错别字二用户名与密码在输入时要考虑 1 正确的用户名与正确的密码 2 正确的用户名与错误的密码 3 错误的用户名
一看就懂的ReactJs入门教程-精华版

现在最热门的前端框架有AngularJS React Bootstrap等自从接触了ReactJS ReactJs的虚拟DOM Virtual DOM 和组件化的开发深深的吸引了我下面来跟我一起领略ReactJs的风采吧文章有点长耐
selenium.common.exceptions.WebDriverException: Message: ‘chromedriver‘ executable needs to be in P

selenium在liunx下配置报错解决方式 1 首先打开浏览器输入 chrome version 可以看到版本号 2 打开这个链接 http chromedriver storage googleapis com index htm
Qt技术重绘QtableView方法

在项目过程中需要在列表中用图形显示磁盘的使用情况这用Qt自身的QTableview控件不能完全实现需要用委托进行重绘创建一个委托类继承QItemDelegate类然后实现void paint QPainter painter con
(笔试前准备)字符串匹配算法总结

我想说一句我日我讨厌KMP KMP虽然经典但是理解起来极其复杂好不容易理解好了便起码来巨麻烦老子就是今天图书馆在写了几个小时才勉强写了一个有bug的效率不高的KMP 特别是计算next数组的部分其实比KMP算法速度快的算法
Firefox 或将强制启用 HTTPS 链接

Mozilla 在最新上线的 Firefox 76 Nightly 版本中引入可选的 HTTPS only 模式该模式仅允许连接到 HTTPS 站点如果一切进行顺利的话 Firefox 接下来可能会在稳定版中面向所有用户推出该项功能 H
可连接点对象及示例(二)

转载请标明是引用于 http blog csdn net chenyujing1234 例子代码包括客户端与服务端 http www rayfile com zh cn files de82908f 7309 11e1 9db1 0015
学习笔记Controller

转自 http elim iteye com blog 1753271 谢谢博主分享 SpringMVC Controller 介绍一简介在SpringMVC 中控制器Controller 负责处理由DispatcherServle
袁红岗的编程感悟

我自己知道近几年也一直在用但就是说不出来直到最近几天才能够表达叫作Think in Code 也就是用代码思考同时也把代码当成自己思想表达的方式正如哲学家用文字设计诠释思想程序员说话用的是代码这就是一个程序员的境界
高效程序员的40个好习惯和行为方式

每一个好的习惯开头都会相应有一个唱反调的句子哦 1 做事出了问题第一重要的是确定元凶找到那个人一旦证实了是他的错误就可以保证这样的问题永远也不会再发生了指责不会修复bug 把矛头对准问题的解决办法而不是人这是真正有用处的正
HeadFirst 设计模式学习笔记10——MVC分析

1 M V C Model View Controller 模式视图控制器这是一种范型模型对象正是应用系统存在的理由你设计的对象包含了数据逻辑和其他在你的应用领域创建定制的类视图通常是控件用来显示和编辑控制器位于二者中间
AngularJs单元测试

这篇文章主要介绍了angularJS中的单元测试实例本文主要介绍利用Karma和Jasmine来进行ng模块的单元测试并用Istanbul 来生成代码覆盖率测试报告需要的朋友们可以参考下以下可全都是干货哦当ng项目越来越大的时候
金融类测试的总结

金融测试前后端前端执行页面级测试用例验证应用层基本功能能是否和需求一致页面风格是否一致金额利息以及对应的状态是否正确等后端通过测试页面录入测试用例比对结果为了看数字金额的准确性也是确认金融底层的正确性以及逻辑性
描述性能测试工作中的完整过程？

有简单接触采用的工具是Jmeter 进行轻量级的压力测试 1 确定好压力测试的功能模块首先用Jmeter录制脚本然后对脚本进行优化 2 对一些数据进行参数化利用CSV导入存在txt文档里面的数据 3 设计测试场景 4 执行压力测试
python字符串与列表

字符串字符串定义输入输出定义切片是指对操作的对象截取其中一部分的操作适用范围字符串列表元组都支持切片操作切片的语法起始下标结束步长字符串中的索引是从 0 开始的最后一个元素的索引是 1 字符串的常见操作查找 f
网管员牢记 10种较为常见的服务器管理错误

网管员牢记 10种较为常见的服务器管理错误网络管理阶层的工作就是保证网络的正常工作从而使得职工们的工作不被打断可问题在于事物并非总是按照理想状况发展事实上经常会出现平地起风波的状况其间有许多原因这里我们只讨论10种较为常见的网管
008-黑盒测试和白盒测试的优缺点

黑盒测试和白盒测试的优缺点黑盒测试的优点有比较简单不需要了解程序内部的代码及实现与软件的内部实现无关从用户角度出发能很容易的知道用户会用到哪些功能会遇到哪些问题基于软件开发文档所以也能知道软件实现了文档中的哪些功能在做软
如何从零开始搭建公司自动化测试框架？

搭建的自动化测试框架要包括API测试 UI测试 APP测试三类以上三类其实可以简化为两类那就是 1 接口自动化测试框架搭建 2 UI自动化测试框架搭建没问题安排且是手把手教你如何搭建以上两类自动化测试框架回到这篇主题刷到这个问

随机推荐

Ts接口的使用

TypeScript 的核心原则之一是对值所具有的结构进行类型检查我们使用接口 Interfaces 来定义对象的类型接口是对象的状态属性和行为方法的抽象描述接口初探需求创建人的对象需要对人的属性进行一定的约束 id是
工作10年我面试过上百个程序员，真想对他们说…

V xin ruyuanhadeng获得600 页原创精品文章汇总PDF 一写在前面最近收到不少读者反馈说自己在应聘一些中大型互联网公司的Java工程师岗位时遇到了不少困惑这些同学说自己也做了精心准备网上搜集了不少Java面试题
Edit Distance

Given two words word1 and word2 find the minimum number of steps required to convert word1 to word2 each operation is co
【转载】探索推荐引擎内部的秘密

原网址 https www ibm com developerworks cn web 1103 zhaoct recommstudy1 index html icomments 这是2011年ibm发布的文章较为通俗易懂适合想入门推荐
配置msf连接postgresql数据库

BackTrack 5 R3版本的Metasploit在每次的升级后总会出现奇奇怪怪的错误主要是Ruby的库出错网上找了一些解决的办法但每次更新后又会出错蛋碎解决方法 BackTrack 5中默认自动开启端口7337 1 查看Po
Zabbix监控MariaDB服务

文章目录 1 概述监控MariaDB服务主机 2 安装MariaDB服务和配置MariaDB 3 配置Zabbix的userparameter mysql conf 文件模板 4 在Web配置模板 5 在server进行压力测试mysql服
svg实现文本的垂直居中对齐样式

项目中用到表格内画折线趋势图本人使用的svg绘制简单折线没有数据的单元格显示文字为了不影响表格的宽度自适应就想到在svg上写文字于是就有了在svg上对文字样式进行垂直居中的需求上代码
Linux教程：在虚拟机中如何配置Linux系统网络环境？

对于很多初学Linux 的同学大多选择使用虚拟机来展开学习可以方便的做实验修改测试不必害怕出问题可以随便折腾大不了换一个虚拟机原来的系统不受任何影响但由于不是实体pc机使用难免受限如果配置不好后期开发必受其累比如
C++Primer（4-8章）

第四章表达式求值顺序 C 中没有明确规定大多数运算符的求值顺序因此我们要避免改变了某个运算对象的值又在表达式其他地方使用这个运算对象这种情况出现赋值运算满足右结合律在输出表达式中使用条件运算符条件运算符的优先级非常低因此
java修改AD域用户密码使用SSL连接方式

正常情况下 JAVA修改AD域用户属性只能修改一些普通属性如果要修改AD域用户密码和userAccountControl属性就得使用SSL连接的方式修改 SSL连接的方式需要操作以下步骤 1 安装AD域证书服务 2 证书颁发机构中设置以
【C语言】结构体中的函数指针

目录一函数指针是什么二结构体中的函数指针一函数指针是什么函数指针是指向函数的指针变量通常我们说的指针变量是指向一个整型字符型或数组等变量而函数指针是指向函数函数指针可以像一般函数一样用于调用函数传递参数正确形式
2.【Python】分类算法—Logistic Regression

2 Python 分类算法 Logistic Regression 文章目录 2 Python 分类算法 Logistic Regression 前言一 Logistic Regression模型 1 线性可分和线性不可分 2 Logis
二.全局定位--开源定位框架livox-relocalization实录数据集测试

相关博客二十五 SLAM中Mapping和Localization区别和思考 goldqiu的博客 CSDN博客二十五 SLAM中Mapping和Localization区别和思考 goldqiu的博客 CSDN博客基于固态雷达的全局
【Flink系列】- RocksDB增量模式checkpoint大小持续增长的问题及解决

背景 Flink版本 1 13 5 一个使用FlinkSQL开发的生产线上任务使用Tumble Window做聚和统计并且配置table exec state ttl为7200000 设置checkpoint周期为5分钟使用rocks
cr2格式缩略图不显示_苹果HEIC格式照片如何快速在windows电脑上查看

相信很多人一定遇到这样的一个情况出去旅游玩了一阵辛辛苦苦回来将iphone拍的照片拷贝到windows电脑 windows7系统上想寻找一些心仪的照片却发现是如下的样子 OMG 欺负我买不起苹果电脑是吧我拍的是啥什么也看不到
Linux —— XShell6远程操控开机、重启和用户登录注销

1 关机重启命令 shutdown h now 表示立即关机 shutdown h 1 表示一分钟后关机 shutdown r now 表示立即重启 halt 直接使用等价于关机 reboot 就是重启系统 sync 把内存的数据同步到
会议OA项目----我的审批

前言上一篇博客我将我的会议的送审和会议排座这两个功能完成送审之后就到了审批阶段那么这次做的就是我的审批一实现思路根据产品原型图见产品原型图我的审批界面与我的会议界面大同小异那么我们可以调用之前的写好的SQL语句只不过将
文件上传/下载接口（超简单的教程来了）

前言文件上传下载接口与普通接口类似但是有细微的区别如果需要发送文件到服务器例如上传文档图片视频等就需要发送二进制数据上传文件一般使用的都是 Content Type multipart form data 数据类型可以
java懒加载注解_一分钟学习Spring注解之懒加载@Lazy

先声明本篇文章非常简单属于一分钟学会使用系列不深入讲解原理如果要学习源码可以看小编Spring源码解析系列什么是懒加载懒加载就是不使用不加载使用的时候才去加载 Spring默认不是懒加载而是启动加载就在Spring上下文启
rac集群节点级联重启故障分析

author skate time 2012 07 16 无意中发现以前处理故障写的一篇文章记录下来以备查找 rac集群节点级联重启故障分析环境 os linux db rac10g ocfs2 rac数据库环境实际包含两个集群一个是

rac集群节点级联重启故障分析

rac集群节点级联重启故障分析 的相关文章

随机推荐

热门标签

rac集群节点级联重启故障分析的相关文章