GaussDB-事件告警配置
操作场景
云数据库GaussDB管理平台(TPOPS)提供系统事件告警能力,事件告警指系统中出现预期之外的状态变化,云数据库GaussDB管理平台(TPOPS)记录相关的状态信息,通知用户响应的变化。云数据库GaussDB管理平台(TPOPS)根据配置策略上报相应的事件告警。
本节描述如何配置告警产生的阈值、条件和其他信息。
前提条件
用户具有告警查看、操作权限可以管理配置告警信息。
告警级别
- 紧急:该级别的故障影响到系统提供的服务,需要立即采取相应动作。如某设备或资源完全不可用,需立即采取措施,进行恢复。
- 重要:该级别的故障影响到服务质量,需要采取紧急动作。如某设备或资源服务质量下降,需对其进行还原,恢复全部能力。
- 次要:该级别的故障还未影响到服务质量,但为了避免更严重的故障,需要在适当时候进行处理或进一步观察。
- 提示:该级别的故障指示会有潜在的错误影响到提供的服务,需要根据不同的错误进行处理。
操作步骤
-
单击“平台管理 > 系统配置管理 > 事件告警配置”,显示“事件告警配置”页面。
告警配置搜索栏中,可根据事件名称,告警说明,告警类别等信息搜索告警信息。
图1 事件告警配置
参数名称 参数解释 告警名称 展示告警的名称。 告警说明 展示该告警的定义。 告警级别 展示不同级别的告警级别,包括紧急、重要、次要、提示,可设置事件告警触发级别。 告警状态类型 展示告警状态的类别,即触发告警的资源对象,比如系统状态等。 重复告警忽略时段 展示同一告警忽略重复上报的时间段。例如:该项告警的监测频率为5分钟一次,配置重复告警忽略时段为:30分钟,在满足告警阈值前提下,该项告警在30分钟内最多只上报一次。 有效期 展示告警生效的周期时段,可配置时间与周期,例如:配置告警在星期一到星期五的00:00到08:59生效,其余时间段的告警自动抑制。 告警状态 展示告警的状态,开启表示启用告警,关闭表示禁用告警。 操作 - 详情:可查看当前告警的详细配置信息,具体可参见步骤3。 - 设置:可根据系统业务状态配置告警触发规则,具体可参见步骤4。 |
-
图2 告警详情
参数名称 参数解释 默认阈值告警 云数据库GaussDB管理平台(TPOPS)默认的告警阈值设置。 告警源 云数据库GaussDB管理平台(TPOPS)中监测上报此项告警的模块。 影响 该项告警对系统可能产生的影响。 可能原因 该项告警产生的可能原因。 建议操作 对于该告警的排查思路及应急处理建议。 更新时间 该项告警更新的时间。 -
图3 事件告警设置
参数名称 参数解释 告警名称 展示告警名称。 告警类别 展示告警状态的类别,即触发告警的资源对象,比如系统状态等。 外部告警ID 展示告警的外部ID,例如:8001010006。 告警状态 展示告警的状态,包括“启用”和“禁用”。勾选表示“启用”,去勾选表示“禁用”。 告警有效周期 展示告警有效日期,可全选,也可勾选星期中的任意一天。 告警升级周期 展示告警的升级策略,通过周期进行控制,例如:该项告警触发为提示级别告警,配置告警升级周期为30分钟,若30分钟后仍未处理,则此项告警升级为次要级别告警,以此类推,直至升级为紧急级别告警。 告警有效时间 展示告警生效的周期时段,可配置时间与周期,例如:配置告警在星期一到星期五的00:00到08:59生效,其余时间段的告警自动抑制。 告警级别 展示事件告警级别,可下拉选择。- 紧急:表示该事件发生后会触发一个“紧急”级别的告警。 - 重要:表示该事件发生后会触发一个“重要”级别的告警。
- 次要:表示该事件发生后会触发一个“次要”级别的告警。
- 提示:表示该事件发生后会触发一个“提示”级别的告警。 | | 重复告警忽略时段 | 展示忽略间期,控制同一告警的重复上报,例如:该项告警的监测频率为5分钟一次,配置重复告警忽略时段为:30分钟,在满足告警阈值前提下,该项告警在30分钟内最多只上报一次。 | | 告警说明 | 展示告警的描述。 |
更多详情请参考GaussDB 文档中心:doc.hcs.huawei.com/db/zh-cn/ga…