一、问题描述
之前,两台数据库服务器安装了两个实例,共享磁盘阵列,通过ASM管理,(日志文件和控制文件等)通过GFS实现共享存储文件同步。系统工作正常,某天加入第三个节点时失败,集群正常使用就没再管它。某日,数据库异常,重启操作系统后,GFS集群故障,无法启动,如下:
---
starting fencing ... failed
用tail - 50 /var/log/messages查看:
......
CCS can't read and open ......
查询网上资料,解决方法如下:
#fence_ack_manual -n s3.test.com
手动fance掉s3.test.com时返回以下错误
can\"t open /tmp/fence_manual.fifo: No such file or directory
解决方法#touch /tmp/fence_manual.fifo
#fence_ack_manual -n s3.test.com
Warning:  If the node "s3.test.com" has not been manually fenced(i.e. power cycled or disconnected from shared storage devices)the GFS file system may become corrupted and all its dataunrecoverable!  Please verify that the node shown above hasbeen reset or disconnected from storage.
Are you certain you want to continue? [yN] ydone
问题还是没能解决。
辗转两天,终于向高人请教后解决如下:
cman_tool -r 9 version
cman_tool version
重启后,集群正常。
分析如下:加入第三个节点失败后,CCS文件已经被改变,故系统重启后集群服务启动失败。使用ccs_tool update -r,更新CCS文件后,cman_tool version可查看到版本更新。
至此,问题解决,本次得到的教训是以后遇到这样的问题时,还需正本溯源,搞清楚问题产生的原因,才能解决问题。否则,欲速则不达。
注:cman_tool、ccs_tool在/sbin下。