【GaussDB】Ops巡检-watchdog进程状态异常处理步骤

84 阅读1分钟

告警解释

=======

DBS运维管理平台提供指标监控能力,监测到上报信息给HA的watchdog进程不存在,产生此告警。

对系统的影响

如果有持续告警时,会造成Agent无法上报集群信息,磁盘信息,网卡信息等信息给HA,对数据库集群的高可用和告警会有一定影响。

可能原因

  • agent_monitor进程因某种原因阻塞住了,或者报错退出并且启动失败了,因此无法拉起watchdog进程。
  • watchdog进程报错退出并且启动失败。

处理步骤

  1. 在告警信息中获取nodeId,通过登录实例节点操作,登录节点。

  2. 执行 ps -ef | grep python 查看有无agent_monitor进程,如下图所示。

    • 存在进程,查看3
    • 如果不存在进程,查看4
  3. 执行 vim /home/Ruby/log/agent_process_monitor.log 查看agent_monitor进程的日志,查看是否有试图拉起watchdog进程。

    如果存在异常无法拉起(如图,但图中的异常仅是个示例,并不代表实际情况),请联系技术支持

  4. 如果agent_monitor进程不存在,则参考ALM-5101270 Ops巡检-agentmonitor进程状态异常的处理步骤。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。

更多详情请参考GaussDB 文档中心:doc.hcs.huawei.com/db/zh-cn/ga…