【GaussDB】如何避免Ops巡检-进程内存使用率异常?

147 阅读2分钟

告警解释

=======

此告警对应指标“进程内存使用率”超出配置阈值,此指标反映gaussdb进程已使用的内存占CN或DN节点可用的最大物理内存的,即max_process_memory配置的值的百分比。

对系统的影响

此指标持续上涨,达到100%的值,语句执行会因无内存报错。

可能原因

  • 业务量增加,内存正常使用。
  • 内存泄漏。

处理步骤

  1. 收到告警后,首先通过查看监控指标查看指标“进程内存使用率”,确认指标情况以及触发告警的组件。

  2. 确认此指标是否已达100%。

    • 如果已达或超过90%仍持续上涨。
      1. 登录系统库
      2. 执行如下语句,查看内存使用情况。
        • 分布式

          select * from pv_total_memory_detail;
          

        • 主备式

          select * from gs_total_memory_detail;
          
      3. 通过重启进程或参考《云数据库 GaussDB 24.1.30 使用指南 (for 华为云Stack 8.3.1)》中的“用户指南 > 操作指南 > 变更实例 > DN主备倒换”章节进行主备倒换,执行重启或主备倒换需保证分片内备DN的指标“备机RTO时间”指标小于60s。
    • 指标小于100%,执行3
  3. 通过查看监控指标查看“动态内存使用率”、“已使用的其他内存”、“已使用的共享内存”三个指标是否同步上涨。

    • 如果同步上涨,参考对应指标的异常处理方法。
    • 如果此三个指标都没有上涨,联系技术支持查看处理。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。

更多详情请参考GaussDB 文档中心:doc.hcs.huawei.com/db/zh-cn/ga…