对于On-cal这一词,国内并没有特别明确的说法,因为这是个欧美流传过来的叫法。国内与之相接近的意思大致就是值班,再详细一些的说法便是指企业为了快速相应生产故障或者重大事件,在某段时间内指定某个人或者某组人随时待命(类似值班)。在故障发生的一瞬间,会以邮件、短信、电话等形式通知到负责人,以保障第一时间的处理。
正所谓,没有零bug的程序,没有零问题的系统,因此互联网技术的发展也是时刻离不开运维的支撑,与此同时,On-call机制的理念也逐渐流行开来,但依旧会存在没能有序的处理:
- 海量的事件淹没了重要事件,没有及时的跟进处理,对后续业务产生了严重的影响;
- 突发事件过多,团队成员疲于应对,整体士气低下,处理效率低。
如何快速精准的定位到主告警,做好紧急处理工作,维持业务的稳定运营,成为了运维人员(尤其是运维主管)的关键。我们接触过各行各业的公司的运维工作,从初创、中小再到大型公司,总结了一套大多公司通用的On-call机制,这边分享出来,帮助大家有序的处理紧急事件:
- 监控告警时间集中化;
- 建立多层次的,分工明确的支撑团队;
- 多渠道通知&