简介
-
运维人员通过告警监控来监控、管理系统自身或管理对象上报的告警或事件。告警监控提供了丰富的监控和处理规则,还可以将故障通知给运维人员,帮助高效监控、快速定位和处理网络故障,从而保证业务正常运行。
NOTICE:
告警管理提供了丰富的监控和处理规则:通过配置告警/事件可以帮助用户压缩告警量、实现告警实时通知、满足个性化监控需要;多个监控页面为用户提供多样、便捷的监控与处理方式;在告警数据的日常维护方面,提供了可设置的保障机制,避免因数据库存储满而影响新告警的上报。具体请参考《华为云Stack 8.3.1 运维指南》中的“集中监控”章节。
-
在进行告警监控相关操作之前,请先了解以下基本概念。
告警和事件
-
系统自身或管理对象检测到自身存在异常或正常运行时的重要状态变化,将分别以告警或事件显示在告警管理界面中。管理对象指接入告警管理系统的对象或网元。告警和事件的定义等信息如表1所示。
表1 告警和事件
名称
含义
区别
共同点
告警
系统自身或管理对象检测到故障而产生的通知。
- 告警的产生预示着系统自身或管理对象发生了异常或故障;事件是系统自身或管理对象在正常运行状态下产生的通知。
- 告警必须要处理,否则会导致业务异常;事件不需要处理,用来帮助分析、定位问题。
- 用户可以在界面上对告警进行确认和清除;用户不能对事件进行确认和清除。
以通知方式提示用户。
事件
系统自身或管理对象在正常运行状态下产生且需要主动提示用户的通知。
告警级别
-
告警级别用来表示故障的严重程度、重要性和紧迫性,帮助运维人员在大量告警中快速识别告警的重要程度,采取相应的处理策略,还可以根据需要调整告警的级别。
-
告警的级别说明如表2所示。
表2 告警级别
告警级别
缺省颜色
说明
处理策略
紧急
已经影响业务,需要立即采取纠正措施。
需要紧急处理,否则有业务中断或系统瘫痪的风险。
重要
已经影响业务,如果不及时处理会产生较为严重后果。
需要及时处理,否则会影响重要业务运行。
次要
目前对业务影响轻微,但需要采取纠正措施,以防止更为严重的故障发生。
需要查找告警原因,消除故障隐患。
提示
检测到潜在的或即将发生的影响业务的故障,但是目前对业务还没有影响。
可根据告警了解网络和网元的运行状态,视具体情况进行处理。
告警状态
-
告警的状态分类如表3所示。
表3 告警状态分类
状态名称
告警状态
说明
确认状态
已确认、未确认
初始确认状态为“未确认”。当用户已经看到此告警并纳入到处理计划中,此时对告警进行“确认”操作,告警变为“已确认”状态;用户进行“反确认”操作,则告警恢复为“未确认”状态。用户也可以通过配置“自动确认规则”来实现告警自动确认。
清除状态
已清除、未清除
初始清除状态为“未清除”。当引起告警的故障被修复,对应的清除通知自动上报到告警管理系统后,告警状态将变为“已清除”。部分告警修复后,清除通知无法自动上报至告警管理系统,则用户需确认故障修复后手工执行“清除”操作。“已清除”告警的背景色在界面中显示为绿色。
维护状态
正常态、维护态
- 正常态:告警初始维护状态为正常。
- 维护态:因调测产生而非故障产生的告警,在监控或查询告警时,可通过过滤条件将维护态告警过滤掉,运维人员不用耗费时间关注这类告警。维护态包括:新建、扩容、升级、调测。
失效状态
有效告警、无效告警
- 有效告警:告警初始失效状态为有效。
- 无效告警:运维人员通过经验判断为无用的告警,在监控或查询告警时,可通过过滤条件将无效告警过滤掉,运维人员不用耗费时间关注这类告警。
-
事件的状态分类如表4所示。
表4 事件状态分类
状态名称
事件状态
说明
维护状态
正常态、维护态
事件的维护状态是固定的,在监控或查询事件时,可通过过滤条件将维护态事件过滤掉,运维人员不用耗费时间关注这类事件。
说明:
- “正常态”的事件在事件日志中的“维护状态”显示为“正常”。
- “维护态”的事件在事件日志中的“维护状态”显示为“新建”、“扩容”、“升级”或“调测”。
当前告警和历史告警
-
当前告警和历史告警的说明如表5所示。
表5 当前告警和历史告警
名称
说明
当前告警
包括:未确认未清除告警、已确认未清除告警、未确认已清除告警。用户可监控当前告警,及时发现故障,并作相应操作,通知给运维人员处理。
历史告警
已确认已清除告警。用户可对历史告警进行分析,优化系统的性能。
告警和事件的类型
-
用户可以设置告警或事件的某些类型为过滤条件进行查询,以便进行分析、处理。
-
告警和事件的类型说明如表6所示。
表6 告警和事件的类型
名称
说明
通信告警
网元内部、网元之间、网元与管理系统之间、管理系统之间的通信失败而引起的告警。如:设备通信中断告警。
业务质量告警
业务质量退化问题而引起的告警。如:设备拥塞告警。
处理错误告警
软件或处理过程错误而引起的告警。如:版本不匹配告警。
设备告警
物理资源故障而引起的告警。如:单板故障告警。
环境告警
设备所处环境出现问题而引起的告警。如:硬件温度过高而产生的温度告警。
完整性告警
请求的操作不能正常提供。如:非法的修改、增加和删除用户信息。
操作告警
所需服务因不可用、故障或错误调用等问题无法正常运行而引起的告警。如:服务拒绝、服务退出、程序性错误。
物理资源告警
物理资源受到破坏而引起的告警。如:电缆破损、非法闯入机房。
安全告警
安全服务或机制检测到有关安全方面的问题发生。如:鉴权失败、机密泄漏、非法访问。
时间域告警
某事在不应该发生的时间内发生。如:信息延迟、密钥失效、在非授权时间段访问资源。
属性值改变
管理对象的属性值发生变化。如:属性增加、减少和改变。
对象创建
管理对象的实例被创建。
对象删除
管理对象的实例被删除。
关系改变
管理对象的关系属性发生变化。
状态改变
管理对象的状态属性发生变化。
路由改变
路由发生变化。
保护倒换
倒换引起的告警或事件。
越限
当性能指标达到阈值时,上报该类告警或事件。
文件传输状态
文件传输成功/失败后上报该类告警或事件。
备份状态
管理对象的备份状态发生变化。
心跳
发送心跳通知。