GaussDB--Ops巡检-主机流控时间异常如何避免?

127 阅读2分钟

告警解释

=======

此告警对应指标“主机流控时间”超出配置阈值,此指标反映为了达到recovery_time_target参数配置的RTO,主DN所需要睡眠的时间,单位us。

对系统的影响

此指标大于0,说明有流控产生,流控期间,影响主DN事务提交,延长语句执行时间,业务性能下降。

可能原因

业务压力过大,使得备DN的xlog回放速度跟不上主DN产生的速度,不满足RTO要求。

处理步骤

  1. 收到告警后,首先通过查看监控指标查看指标主机流控时间,确认指标情况以及触发告警的组件。

  2. 确认指标是否已归0,如果已归0,风险可控,持续观察是否仍会上涨。

    如果未归0,执行3

  3. 参考查看监控指标,查看指标“Data Manipulation Language/s”、“80% SQL的响应时间”、“95% SQL的响应时间”、“线程池使用率”确认这些指标是否同时波动或告警。

    • 如果这些指标无明显波动,风险可控,持续观察指标是否会波动,并联系客户咨询,业务压力是否变化及需要持续的时间,决策是否需要执行4,防止影响业务性能。
    • 如果已出现“Data Manipulation Language/s”下降,“80% SQL的响应时间”、“95% SQL的响应时间”、“线程池使用率”上涨,那说明已触发流控且影响业务性能,执行4
  4. 参考修改实例参数调整参数recovery_time_target为0,关闭流控紧急规避。

    等待业务和此指标恢复之后,确认recovery_time_target参数是否调回原值,保证RTO。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。

更多详情请参考GaussDB 文档中心:doc.hcs.huawei.com/db/zh-cn/ga…