GaussDB--Ops巡检-80% SQL的响应时间异常解决方法

42 阅读3分钟

告警解释

=======

DBS运维管理平台提供指标监控能力,监测到实例的80% SQL的响应时间监控指标高于阈值,产生此告警。

对系统的影响

  • 此告警对应指标“80% SQL的响应时间”超出配置阈值,此指标用来反映系统的整体时延。
  • 指标上涨,表明大部分语句执行变慢,可能出现慢SQL,业务侧相关接口时延升高。

可能原因

处理步骤

  1. 通过查看监控指标查看“80% SQL的响应时间”的指标波动情况,判断指标是陡增还是缓慢增长。

    • 如果是陡增,执行 2
    • 如果是缓慢增长,执行3
  2. 通过查看监控指标查看“Data Manipulation Language/s”的指标波动情况指标。

    • 如果两个指标同时上涨,则表示业务请求量上涨导致,考虑联系客户进行限流。
    • 如果“Data Manipulation Language/s”指标没有上涨,继续查看 3
  3. 判断开始增长的时间点,是否存在数据库变更或业务侧变更操作。

    • 如果存在变更,当前告警的根因基本上同变更有关,分析当前变更的影响以及业务的实际影响。
      • 如果是业务影响不可控或无法分析,建议回退变更,变更如果无法回退,可继续执行 4
      • 如果业务影响可控,可以考虑继续分析,执行4
    • 如果没有变更,通过查找引起SQL性能劣化的故障节点排查节点底层是否存在故障告警。
      • 存在故障
        • 如果在陡增的时间点周围,故障告警自动恢复,并且当前告警指标已恢复正常,则可确定为底层故障导致的问题。
        • 如果底层故障未恢复或指标长时间未回落,考虑对故障节点做隔离。
      • 不存在底层故障,继续执行 4
  4. 具体方法请参考《云数据库 GaussDB 24.1.30 维护指南(for 华为云Stack 8.3.1)》中的“故障管理 > 故障处理 > 数据库故障定位方法 > 性能类问题 > 整体性能慢分析”章节。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。

更多详情请参考GaussDB 文档中心:doc.hcs.huawei.com/db/zh-cn/ga…