作者介绍
胖亚鹏,监控技术领域专家。具备十余年监控系统建设经验,精通主流商用及开源监控软件产品的集成应用,专注于监控工具建设,全面支撑传统架构和容器云、分布式架构下的监控管理。探索研究智能化监控,推动分布式架构下以大数据、人工智能技术为基础的实时监控技术方案落地。
监控系统作为IT运维之眼,在运维管理工作中发挥着重要的作用。而监控报警作为监控系统的主要输出,在生产故障早期预警、故障定位分析和故障恢复验证等多个运维场景中提供了技术工具的支撑。
G行上一代监控报警系统使用国外的商业套件,报警采集和报警处理受限于商业套件的单机单线程处理能力,而报警存储采用的是单机版的内存数据库。
存在以下问题
解决方案
为解决上述问题,G行新一代监控报警系统基于开源组件进行自主研发,既能满足海量报警消息的高并发处理及规则灵活配置的要求,又能满足报警全生命周期的运维管理需求,最终实现监控报警的高效处理。
下文将从报警信息的生命周期管理出发,介绍一下G行新一代监控报警系统规划与建设。
一、监控报警系统简介
报警消息的管理我们遵从闭环管理机制,其生命周期可以从产生到恢复的全过程分为报警产生和接入、报警预处理、报警存储、报警通知和报警恢复后关闭等多个环节。
1、报警生命周期管理
主要目标是为了实现:
全面管理、敏捷接入
降低延迟、及时通报
推荐根因、协助定位
跟踪解决、恢复验证
2、监控报警系统核心功能
围绕报警的生命周期管理,监控报警系统的功能框架应包含的主要功能如下: