GaussDB-Ops巡检-DN进程启动时间异常如何解决?

116 阅读2分钟

告警解释

=======

此告警对应指标“DN进程启动时间”,此指标反映DN进程启动的时间超出阈值,如果此指标的值发生更新,说明DN进程重启。

对系统的影响

重启会使得业务闪断。

可能原因

  • 存在变更操作

  • 存在重启进程操作。

  • 虚拟机、物理机重启。

  • DN故障。

  • Core Dump 核心转储。

Core Dump 表示核心转储,当程序运行过程中发生异常,程序异常退出时,由操作系统把程序当前的内存状况存储在一个core文件中。

处理步骤

  1. 收到告警后,首先通过查看监控指标查看指标“DN进程启动时间”,确认指标情况以及触发告警的组件。

  2. 确认是否有内核升级、容灾切换或重启进程的操作。

    • 如果有,属于正常重启,重启时间在变更期间,符合预期。
    • 否则,执行3
  3. 确认虚拟机和物理机是否发生过重启,可以登录告警组件所在节点,执行如下命令,查看所有进程的启动时间.

    ps -T

    • 如果节点上所有进程启动时间相同,大概率是虚拟机或者物理机发生过重启,联系技术支持
    • 否则,执行4
  4. 确认重启时间周围,是否有其他的事件告警或者故障告警.

    • 如果有按照对应告警的处理方式处理。
    • 否,则执行5
  5. 确认进程是否发生过Core Dump,到$GAUSSLOG/ffic_log目录下,查看是否有重启时间周围的日志文件.

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。

更多详情请参考GaussDB 文档中心:doc.hcs.huawei.com/db/zh-cn/ga…