告警解释
=======
DBS运维管理平台提供指标监控能力,监测到agent响应请求的dbmanager进程不存在,产生此告警。
对系统的影响
如果有持续告警时,会造成HA、实例管理、备份管理等管理面服务与Agent失联,Agent会接收、响应不了请求。
可能原因
- agent_monitor进程因某种原因阻塞了,或者报错退出并且启动失败了,从而无法拉起dbmanger进程。
- dbmanger进程报错退出并且启动失败。
处理步骤
-
在告警信息中获取nodeId,通过登录实例节点操作,登录节点。
-
执行 ps -ef | grep python 查看有无agent_monitor进程,如下图所示。
-
执行vim /home/Ruby/log/agent_process_monitor.log查看agent_monitor进程的日志查看是否有试图拉起dbmanager进程。
如果存在异常无法拉起进程(如图,但图中的异常仅是个示例,并不代表实际情况),需联系技术支持协助处理Agent问题。
-
如果agent_monitor进程不存在,则参考ALM-5101270 Ops巡检-agentmonitor进程状态异常的处理步骤。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
不涉及。
更多详情请参考GaussDB 文档中心:doc.hcs.huawei.com/db/zh-cn/ga…