GaussDB--Ops巡检-xlog速率异常解决方法

118 阅读2分钟

告警解释

=======

此告警对应指标“xlog速率”超出配置阈值,此指标反映数据库中每秒产生的xlog的量。

对系统的影响

此指标需要联动“备机redo进度,和主机的差距”指标同步分析。

  • 如果“备机redo进度,和主机的差距”指标没有异常,此指标上涨对系统无影响。
  • 如果“备机redo进度,和主机的差距”同步上涨,会影响RTO时间,可能会在故障情况下,备DN无法在RTO时间范围内升主。

可能原因

存在大量写操作。

处理步骤

  1. 收到告警后,首先通过查看监控指标查看指标“xlog速率”,确认指标情况以及触发告警的组件。

  2. 联动“备机redo进度,和主机的差距”指标同步分析。

    如果“备机redo进度,和主机的差距”指标没有异常,此指标上涨对系统无影响,持续观察。

    否则执行3

  3. 如果“备机redo进度,和主机的差距”同步上涨,执行如下语句,确认是否有vacuum操作正在执行:

    • 主备式:

      SELECT * FROM pg_stat_activity WHERE query ILIKE '%vacuum%' AND state = 'active' AND query NOT ILIKE '%pg_stat_activity%';
      
    • 分布式:

      SELECT * FROM pgxc_stat_activity WHERE query ILIKE '%vacuum%' AND state = 'active' AND query NOT ILIKe '%pgxc_stat_activity%';
      
    • 如果有查询结果,说明有vacuum操作,持续观察,等待vacuum完成即可。

    • 如果无查询结果,说明没有vacuum操作,执行4

  4. 通过WDR报告确认上涨时间段和正常时间段之间,写操作业务量的差异。

    如果上涨时间段比正常时间段的写操作业务量大很多,需进行限流操作。

    WDR报告使用具体请参考《云数据库 GaussDB 24.1.30 使用指南 (for 华为云Stack 8.3.1)》中的“用户指南 > 操作指南 > 智能运维 > 诊断优化 > 性能报告”章节。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。

更多详情请参考GaussDB 文档中心:doc.hcs.huawei.com/db/zh-cn/ga…