GaussDB-指标告警配置

121 阅读6分钟

GaussDB-指标告警配置

操作场景

云数据库GaussDB管理平台(TPOPS)提供指标监控告警能力,当系统中设备的性能、环境、资源等监控状态超出设定的阈值时,云数据库GaussDB管理平台(TPOPS)根据配置策略上报相应的指标告警。本节描述如何配置告警产生的阈值、条件和其他信息。

前提条件

用户具有告警查看、操作权限可以管理配置告警信息,当前用户只能看到自己具有权限的实例的告警信息。

告警级别
  • 紧急:该级别的故障影响到系统提供的服务,需要立即采取相应动作。如某设备或资源完全不可用,需立即采取措施,进行恢复。
  • 重要:该级别的故障影响到服务质量,需要采取紧急动作。如某设备或资源服务质量下降,需对其进行还原,恢复全部能力。
  • 次要:该级别的故障还未影响到服务质量,但为了避免更严重的故障,需要在适当时候进行处理或进一步观察。
  • 提示:该级别的故障指示会有潜在的错误影响到提供的服务,需要根据不同的错误进行处理。
操作步骤
  1. 登录云数据库GaussDB管理平台(TPOPS)

  2. 单击具体实例名称,进入“实例管理”详情页。

  3. 选择“配置管理 > 告警配置”,默认显示“指标告警配置”页面。

    告警配置搜索栏中,可根据告警名称,告警说明,告警类别等信息搜索告警信息。

    图1 指标告警配置

    参数名称参数解释
    告警名称展示告警的名称。
    告警说明展示该告警的定义及详细描述。
    阈值告警展示不同级别的告警阈值,包括紧急、重要、次要、提示,可指定阈值进行触发。
    告警状态类型展示告警状态的类别,即触发告警的资源对象,比如节点状态、数据库状态和数据库对象等。
    告警频率展示该告警的检测频率。
    告警类型展示该告警的类型。
    有效期展示告警生效的周期时段,可配置时间与周期,例如:配置告警在星期一到星期五的00:00到08:59生效,其余时间段的告警自动抑制。
    告警状态展示告警的状态,勾选开启项表示启用告警,否则表示禁用告警。
    操作- 详情:可查看当前告警的详细配置信息,具体可参见步骤4
    • 设置:可根据实例业务状态配置告警触发规则,具体可参见步骤5。 |
  4. 单击“详情”可跳转至指标告警详情页面。

    图2 告警详情

    参数名称参数解释
    默认阈值告警云数据库GaussDB管理平台(TPOPS)默认的告警阈值设置。
    告警源云数据库GaussDB管理平台(TPOPS)中监测上报此项告警的微服务模块。
    影响该项告警系统是否可以自动检测到故障被修复。
    可能原因该项告警产生的可能原因。
    建议操作对于该告警的排查思路及应急处理建议。
    更新时间该项告警在此实例下更新的时间。
  5. 单击“设置”,可根据实例业务状态配置告警触发规则。

    图3 指标告警设置

    参数名称参数解释
    告警名称展示告警名称。
    外部告警ID展示告警的外部ID,例如:2001010008。
    告警类别展示告警状态的类别,即触发告警的资源对象,比如节点状态、数据库状态和数据库对象等。
    告警状态展示告警的状态,开启表示启用告警,关闭表示禁用告警。
    告警频率展示该告警的检测频率。
    告警观察期标识该告警的观察期间同汇聚规则共同生效,例如:告警观察期为10分钟,汇聚规则为平均,则以该项指标10分钟内观察数据的平均值作为观察值监测是否触发告警。
    汇聚- 最新:在告警观察期内,取该项指标的最新监控数据,作为指标观测值,监测是否触发告警。
    • 平均:在告警观察期内,取该项监控指标的平均值,作为指标观测值,监测是否触发告警。
    • 标准偏差:在告警观察期内,取该项监控指标的标准偏差,作为指标观测值,监测是否触发告警。
    • 90%统计分位数:在告警观察期内,取该项监控指标的90%的统计频数,作为指标观测值,监测是否触发告警。
    • 95%统计分位数:在告警观察期内,取该项监控指标的95%的统计频数,作为指标观测值,监测是否触发告警。
    • 99%统计分位数:在告警观察期内,取该项监控指标的99%的统计频数,作为指标观测值,监测是否触发告警。 | | 重复告警忽略时间段 | 展示忽略间期,控制同一告警的重复上报,例如:该项告警的监测频率为5分钟一次,配置重复告警忽略时段为:30分钟,在满足告警阈值前提下,该项告警在30分钟内最多只上报一次。 | | 告警有效周期 | 展示告警生效的周期时段,可配置时间与周期,例如:配置告警在星期一到星期五的00:00到08:59生效,其余时间段的告警自动抑制。 | | 告警升级周期 | 表示告警的升级策略,通过周期进行控制,例如:该项告警触发为提示级别告警,配置告警升级周期为30分钟,若30分钟后仍未处理,则此项告警升级为中级别告警,以此类推,直至升级为高级别告警。 | | 告警有效时间 | 展示告警生效的时段。可手动设置时间段,例如:00:00:00到23:59:59,也可勾选“全天”。告警生效时,该时段支持修改。 | | 告警阈值(>) | 显示默认告警阈值,阈值可手动输入告警触发值。例如:- 紧急:默认阈值为50,表示“紧急”级别的告警触发阈值。
    • 重要:默认阈值为45,表示“重要”级别的告警触发阈值。
    • 次要:默认阈值为30,表示“次要”级别的告警触发阈值。
    • 提示:默认阈值为10,表示“提示”级别的告警触发阈值。 | | 告警说明 | 展示告警的详细描述。 | | 关联指标有效阈值 | 设置告警的关联指标有效值的起始边界,如:CPU倾斜率,在各个节点上的CPU使用率指标要超过该有效阈值后,再计算实例上CPU的倾斜率,倾斜率超过告警配置阈值触发该项告警。 |
  6. 单击“保存”,使设置生效。

更多详情请参考GaussDB 文档中心:doc.hcs.huawei.com/db/zh-cn/ga…