告警解释
=======
此告警对应指标“主机流控时间”超出配置阈值,此指标反映为了达到recovery_time_target参数配置的RTO,主DN所需要睡眠的时间,单位us。
对系统的影响
此指标大于0,说明有流控产生,流控期间,影响主DN事务提交,延长语句执行时间,业务性能下降。
可能原因
业务压力过大,使得备DN的xlog回放速度跟不上主DN产生的速度,不满足RTO要求。
处理步骤
-
收到告警后,首先通过查看监控指标查看指标主机流控时间,确认指标情况以及触发告警的组件。
-
确认指标是否已归0,如果已归0,风险可控,持续观察是否仍会上涨。
如果未归0,执行3。
-
参考查看监控指标,查看指标“Data Manipulation Language/s”、“80% SQL的响应时间”、“95% SQL的响应时间”、“线程池使用率”确认这些指标是否同时波动或告警。
-
参考修改实例参数调整参数recovery_time_target为0,关闭流控紧急规避。
等待业务和此指标恢复之后,确认recovery_time_target参数是否调回原值,保证RTO。
- 如果业务以RTO为重要,以性能为次要,可以修改为关闭前的值。
- 如果业务以性能为主要,RTO为次要,可以考虑长期关闭,RTO可以考虑通过ALM-5101160 Ops巡检-备机redo进度,和主机的差距异常中的方式处理。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
不涉及。
更多详情请参考GaussDB 文档中心:doc.hcs.huawei.com/db/zh-cn/ga…