GaussDB-实时告警
操作场景
云数据库GaussDB管理平台(TPOPS)可以展示实时告警数据。当系统以及被纳管的实例出现组件的指标、状态、操作异常后,云数据库GaussDB管理平台(TPOPS)会将异常信息上报,在告警统计页面展示,用户可以根据具体告警信息定位问题。
告警级别
- 紧急告警:该级别的故障影响到系统提供的服务,需要立即采取相应动作。如某设备或资源完全不可用,需立即采取措施,进行恢复。
- 重要告警:该级别的故障影响到服务质量,需要采取相应动作。如某设备或资源服务质量下降,需对其进行还原,恢复全部能力。
- 次要告警:该级别的故障还未影响到服务质量,但为了避免更严重的故障,需要在适当时间进行处理或进一步观察。
- 提示信息:该级别的故障指示会有潜在的错误影响到提供的服务,需要根据不同的错误进行处理。
权限要求
- 用户具有“查看告警统计列表”操作权限,可以查看告警统计信息。
- 用户具有“清除告警”、“下载告警日志”操作权限,可以清除告警和下载告警日志。
- 用户只能看到自己具有权限的实例的告警统计信息。
操作步骤
-
单击“告警管理”,默认显示“实时告警”页面。
-
实时告警数统计:按照紧急告警、重要告警、次要告警、提示信息四个告警级别统计实例告警数量。
-
系统告警数统计:按照紧急告警、重要告警、次要告警、提示信息四个告警级别统计系统告警数量。
-
告警列表:可依据实例节点、告警名称/ID、告警级别等字段模糊搜索告警。
- 勾选具体告警信息左侧复选框,单击“清除告警”,可批量清除选中的告警。
- 单击
,可将当前告警列表中激活状态的告警信息以Excel形式导出至本地。
- 单击
,可实时手动刷新告警。
- 单击具体告警信息前
,展示异常节点指标信息,包括节点名称、节点ID、节点信息、运行状态、节点规格、告警异常指标值及阈值。
图1 实时告警
参数名称 参数解释 告警名称/ID 展示告警的名称以及ID。 告警实例 展示产生告警的实例名称。 告警级别 展示告警的级别,包括:紧急告警、重要告警、次要告警、提示信息。同一实例下,相同告警ID的告警出现多条时,告警级别展示为出现的最高级别。 告警服务 展示告警产生的服务来源。 告警类型 展示告警的类型,包括:指标、诊断、事件和系统。 告警状态类型 展示告警的类别,即触发告警的对象,比如节点状态、数据库状态和数据库对象等。 首次告警时间 展示首次告警产生的时间。 最新告警时间 展示最新告警产生的时间。 告警持续时间 告警未被处理时,表示首次告警时间至今持续的时长;若告警已处理,表示首次告警时间至处理时的持续时长。 告警总数 统计相同实例下、相同告警ID的告警总数。 操作 - 查看告警详情:查看告警详细信息,也可清除告警,可参见步骤3。 - 清除告警:直接清除该告警,可参见步骤4。 |
-
-
单击“操作 > 查看告警详情”,可进入该告警的告警详情页面。
查看该告警的详细信息后,可在“告警表现 > 操作 > 清除告警”中清除该告警信息。
图2 告警详情
-
告警清除后不可恢复,请谨慎操作。
当告警服务出现异常重启后,已上报的告警无法自动恢复,需要进行手动恢复。
更多详情请参考GaussDB 文档中心:doc.hcs.huawei.com/db/zh-cn/ga…