GaussDB--如何避免Ops巡检-用户库慢SQL数量异常?

73 阅读3分钟

告警解释

=======

此告警对应指标“用户库慢SQL数量”超出配置阈值,此指标反映数据库中慢SQL的数量。

对系统的影响

慢SQL数量增加,SQL执行变慢,影响业务接口时延和成功率。

可能原因

处理步骤

  1. 收到告警后,通过查看监控指标查看指标“用户库慢SQL数量”,确认指标情况以及触发告警的节点。

  2. 查看触发告警的节点的慢SQL语句和出现次数。

    • 如果是单个语句慢SQL数量很多,且和其他语句慢SQL数量差距在两个数量级。
      • 通过查看监控指标,同时查看监控上的此指标和“80% SQL的响应时间”指标的波动情况。
        • 如果“80% SQL的响应时间”有明显增加,执行3
        • 如果“80% SQL的响应时间”指标无明显变化,执行6
    • 如果是所有语句慢SQL数量差别不大,几乎没有跨数量级,执行3

    NOTICE:

    数量级的差即它们相差的10的倍数。如果数字相差一个数量级,则 x 的数量大约是 y 的十倍。 如果值相差两个数量级,则它们相差约 100 倍。

  3. 通过查看监控指标查看“80% SQL的响应时间”的指标波动情况,判断指标是陡增还是缓慢增长。

    • 如果是陡增,执行 4
    • 如果是缓慢增长,执行5
  4. 通过查看监控指标查看“Data Manipulation Language/s”的指标波动情况指标。

    • 如果两个指标同时上涨,则表示业务请求量上涨导致,考虑联系客户进行限流。
    • 如果“Data Manipulation Language/s”指标没有上涨,继续查看,执行5
  5. 判断开始增长的时间点,是否存在数据库变更或业务侧变更操作。

    • 如果存在变更,当前告警的根因基本上同变更有关,分析当前变更的影响以及业务的实际影响。
      • 如果是业务影响不可控或无法分析,建议回退变更,变更如果无法回退,可继续执行6
      • 如果业务影响可控,可以考虑继续分析,执行6
    • 如果没有变更,通过查找引起SQL性能劣化的故障节点排查节点底层是否存在故障告警。
      • 存在故障
        • 如果在陡增的时间点周围,故障告警自动恢复,并且当前告警指标已恢复正常,则可确定为底层故障导致的问题。
        • 如果底层故障未恢复或指标长时间未回落,考虑对故障节点做隔离。
      • 不存在底层故障,继续执行 6
  6. 具体方法请参考《云数据库 GaussDB 24.1.30 维护指南(for 华为云Stack 8.3.1)》中的“故障管理 > 故障处理 > 数据库故障定位方法 > 性能类问题 > 整体性能慢分析”章节。

  7. 如无法解决,请联系技术支持

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。

更多详情请参考GaussDB 文档中心:doc.hcs.huawei.com/db/zh-cn/ga…