【GaussDB】ALM-5012823 节点状态异常

61 阅读2分钟

对系统的影响

部分节点不可用。

可能原因

  • 主机服务器系统崩溃。
  • 数据库进程崩溃。

处理步骤

  1. 从告警定位信息中获取实例ID。

  2. 登录DBS运维管理平台

  3. 在“实例管理”的“实例列表”页签的高级搜索中,通过实例ID搜索到该实例,单击实例名称,进入“GaussDB基本信息”页面。

  4. 根据告警信息中的节点ID,在“节点列表模块中找到对应节点”,复制节点名称。

  5. 参考查看实例节点状态,确认服务器是否正常,如果不正常,执行节点替换,尝试替换异常节点。如果正常,执行节点修复,尝试修复异常节点。

    GaussDB提供节点修复和节点替换功能,具体操作请参考中的《华为云Stack 8.3.1 应急预案》中的“数据库服务 > 云数据库 GaussDB > 运维案例库 > 租户面应急案例”中的“节点修复”或“节点替换”章节。

    如果节点修复或节点替换失败,请执行6

  6. 参考下载管理节点日志收集日志,并收集告警信息,联系技术支持进行处理。

    需要下载的日志信息有:

    管理侧:

    • DBS-GaussDB-backupmanager组件下的日志。
    • DBS-GaussDB-instancemanager组件下的日志。

    租户侧:

    Agent组件下的:

    • /home/Ruby/log/agent.log
    • /home/Ruby/log/asyncJobResult.dat

    GaussDB Kernel组件下的:/var/lib/log/Ruby

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

可以参考节点状态异常告警触发时间配置,调整GaussDB节点状态异常告警的触发时间。