【GaussDB】如何解决Ops巡检-agentmonitor进程状态异常?

96 阅读2分钟

告警解释

=======

DBS运维管理平台提供指标监控能力,监测到agentmonitor进程不存在,产生此告警。

对系统的影响

如果有持续告警时,此时Agent相关进程则没有进程来监听是否存活,并且无法执行升级Agent等操作。

可能原因

  • agent_monitor进程报错退出并且启动失败。
  • /etc/crontab 中缺失这个定时任务 /dbs/monitorAgent/crontab_monitor.sh。

处理步骤

  1. 在告警信息中获取节点ID,通过登录实例节点操作,登录上节点,切换root用户。

  2. root用户执行 cat /etc/crontab,查看有无 /dbs/monitorAgent/crontab_monitor.sh 这条记录。

    • 不存在记录,执行3
    • 存在记录,执行4

    获取选中的配置信息,如 */1 * * * * Ruby /bin/bash /dbs/monitorAgent/crontab_monitor.sh

  3. 使用root用户执行 vim /etc/crontab。

    1. 2获取的配置信息添加进去。

    2. 执行service cron reload刷新 crond 服务,让其加载新修改的配置。

    3. 等待2秒再执行 ps -ef | grep python查看agent_monitor 进程是否存在。

      如果不存在,执行4

  4. 执行 vim /home/Ruby/log/agent_process_monitor.log 查看agent_monitor进程的日志。

    检测是否有相关异常无法拉起(如图,但图中的异常仅是个示例,并不代表实际情况),如果存在异常,请联系技术支持

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。

更多详情请参考GaussDB 文档中心:doc.hcs.huawei.com/db/zh-cn/ga…