随着企业数字化转型的加速,云原生、微服务、大数据、人工智能等新技术逐步在企业系统中落地企业信息系统越来越多、越来越复杂,数据处理量增长,这对运维监控提出了更多的挑战。
首先,监控的增多导致了告警源越来越多,每个告警源之间是分散式、孤岛式的,形成了告警无法统一的局面;其次,告警源的分散、不统一,会导致告警处理流程无序,缺乏统一处理,统一通知,无法标准化处理;最后,为了快速发现自身平台故障,企业会使用多个监控平台满足不同场景的监控需求,但监控越完善,告警越多,重复、冗余、大量的告警会导致无法快速筛选关键故障信息。
如何解决这些问题呢?其实我们需要的是一个运维监控统一管理平台。2月17 日,博睿数据正式推出了新一代告警平台——OneAlert。
OneAlert平台是一个集告警接入、告警收敛、告警通知、告警处理、告警分析为一体的统一管理平台,产品整体架构分为事件源的采集层到接入层、存储层、处理层、展示层。
统一接入多源数据
随着企业系统、监控工具越建越多,第三方告警源也越来越多,我们需要统一接入这些监控工具。目前,OneAlert支持四类监控工具的统一接入:
- 云类监控工具:阿里云、腾讯云、华为云等;
- 开源监控工具:ZABBIX、Prometheus等;
- 博睿监控工具:server、NET、sdk等;
- 自定义监控工具:REST API;
这些监控告警源通过统一的事件接入功能接入OneAlert之后,下一步就是对接入的多源异构数据进行标准化映射处理。这个过程无需大量定制化开发,OneAlert会提供监控工具轻量级接入配置以及多源异构数据统一标准化映射。
标准处理运维故障
数据源接入之后,我们需要一个统一、实时的故障信息展示,运维人员能够在一个平台上查看到多个平台的故障情况,提升异常事件的处理效率。
发现故障之后,如何才能高效通知到相应负责人呢?OneAlert支持多种通知方式,可以针对不同通知要求快速通知到相关负责人,缩短故障处理时间,降低对业务的影响。
发送通知之后,将对故障进行跟踪处理,实现故障生命周期的闭环管理,使得故障处理从无序变成有序流程化,提升整体的工作效率。
智能收敛海量告警
之前,告警收敛是基于以往的运维经验、规则,但是随着时间的推移、数据的增长,场景的复杂,规则会到达瓶颈。
而引入智能AI,可以对海量杂乱事件做降噪处理,形成告警,降低故障分析的信息量。然后,通过自定义标签规则收敛、标签AI相似、AI时域等AI智能决策收敛的功能,识别出异常事件之间的关联性,将多个关联事件归并处理成一个故障,从而避免告警风暴,降低整体运维成本。
AI算法收敛主要包括两个部分:AI标签相似和AI时序收敛。
- AI标签相似:通过上报的数据的文本分析,累积文本相关的特征,识别出不同告警的相似度,将相似度高的收敛到同一个故障下;
- AI时序收敛:通过累积一定的历史事件特征,识别出在时间上具有相关性的故障进行告警收敛;
同时,为了保证告警能够正常进行,OneAlert平台会提供默认收敛规则,进行兜底。