GaussDB-实时告警

150 阅读4分钟

GaussDB-实时告警

操作场景

云数据库GaussDB管理平台(TPOPS)可以展示实时告警数据。当系统以及被纳管的实例出现组件的指标、状态、操作异常后,云数据库GaussDB管理平台(TPOPS)会将异常信息上报,在告警统计页面展示,用户可以根据具体告警信息定位问题。

告警级别
  • 紧急告警:该级别的故障影响到系统提供的服务,需要立即采取相应动作。如某设备或资源完全不可用,需立即采取措施,进行恢复。
  • 重要告警:该级别的故障影响到服务质量,需要采取相应动作。如某设备或资源服务质量下降,需对其进行还原,恢复全部能力。
  • 次要告警:该级别的故障还未影响到服务质量,但为了避免更严重的故障,需要在适当时间进行处理或进一步观察。
  • 提示信息:该级别的故障指示会有潜在的错误影响到提供的服务,需要根据不同的错误进行处理。
权限要求
  • 用户具有“查看告警统计列表”操作权限,可以查看告警统计信息。
  • 用户具有“清除告警”、“下载告警日志”操作权限,可以清除告警和下载告警日志。
  • 用户只能看到自己具有权限的实例的告警统计信息。
操作步骤
  1. 登录云数据库GaussDB管理平台(TPOPS)

  2. 单击“告警管理”,默认显示“实时告警”页面。

    • 实时告警数统计:按照紧急告警、重要告警、次要告警、提示信息四个告警级别统计实例告警数量。

    • 系统告警数统计:按照紧急告警、重要告警、次要告警、提示信息四个告警级别统计系统告警数量。

    • 告警列表:可依据实例节点、告警名称/ID、告警级别等字段模糊搜索告警。

      • 勾选具体告警信息左侧复选框,单击“清除告警”,可批量清除选中的告警。
      • 单击,可将当前告警列表中激活状态的告警信息以Excel形式导出至本地。
      • 单击,可实时手动刷新告警。
      • 单击具体告警信息前,展示异常节点指标信息,包括节点名称、节点ID、节点信息、运行状态、节点规格、告警异常指标值及阈值。

    图1 实时告警

    参数名称参数解释
    告警名称/ID展示告警的名称以及ID。
    告警实例展示产生告警的实例名称。
    告警级别展示告警的级别,包括:紧急告警、重要告警、次要告警、提示信息。同一实例下,相同告警ID的告警出现多条时,告警级别展示为出现的最高级别。
    告警服务展示告警产生的服务来源。
    告警类型展示告警的类型,包括:指标、诊断、事件和系统。
    告警状态类型展示告警的类别,即触发告警的对象,比如节点状态、数据库状态和数据库对象等。
    首次告警时间展示首次告警产生的时间。
    最新告警时间展示最新告警产生的时间。
    告警持续时间告警未被处理时,表示首次告警时间至今持续的时长;若告警已处理,表示首次告警时间至处理时的持续时长。
    告警总数统计相同实例下、相同告警ID的告警总数。
    操作- 查看告警详情:查看告警详细信息,也可清除告警,可参见步骤3
    • 清除告警:直接清除该告警,可参见步骤4。 |
  3. 单击“操作 > 查看告警详情”,可进入该告警的告警详情页面。

    查看该告警的详细信息后,可在“告警表现 > 操作 > 清除告警”中清除该告警信息。

    图2 告警详情

  4. 单击“操作 > 清除告警”,可直接删除该条告警信息。

    告警清除后不可恢复,请谨慎操作。

当告警服务出现异常重启后,已上报的告警无法自动恢复,需要进行手动恢复。

更多详情请参考GaussDB 文档中心:doc.hcs.huawei.com/db/zh-cn/ga…