GaussSB--Ops巡检-活跃会话数量异常如何解决?

67 阅读2分钟

告警解释

=======

DBS运维管理平台提供指标监控能力,监测到处于活跃状态的会话数量异常,产生此告警。

对系统的影响

此指标升高会导致线程池使用率升高。

可能原因

  • 因业务导致会话并发增加。
  • 并发问题,并发更新场景产生锁等待。
  • SQL执行时延升高。

处理步骤

  1. 收到告警后,通过查看监控指标查看指标“线程池使用率”,确认指标情况以及确认触发告警的节点。

    • 如果指标已达100%,且未回落,执行2
    • 如果指标值未达到100%,且平稳,执行3
  2. 查看业务关键指标,确认业务影响,通过查看监控指标查看“Data Manipulation Language/s”、“95% SQL的响应时间”、“80% SQL的响应时间”和“在线会话数量”等指标。

    如果对业务有严重影响,需要尽快决策是否通过终止正在执行的业务方式恢复,可以采用如下恢复手段(按照推荐顺序排列,如果无法恢复可以尝试下一个方法):

    1. 查杀会话
    2. 重启GaussDB进程
    3. 进行主备倒换,具体请参考《云数据库 GaussDB 24.1.30 使用指南 (for 华为云Stack 8.3.1)》中的“用户指南 > 操作指南 > 变更实例 > DN主备倒换”章节。
    4. 联系客户进行业务限流操作。
  3. 如果指标持续告警,指标未回落,通过登录实例节点登录到触发告警的节点。

    执行如下SQL,尝试抓取可能导致线程池高的语句。

    select pid,sessionid, query, state,usename,now()-query_start as elp from pg_stat_activity where pid!=0 and usename not like ‘rds%’ order by elp desc;
    

    确认elp(语句执行时间)排在前边的语句的query是否相似:

    如果指标已回落,参考ALM-5101181 Ops巡检-95% SQL的响应时间异常告警的处理方法。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。

更多详情请参考GaussDB 文档中心:doc.hcs.huawei.com/db/zh-cn/ga…