云数据库 GaussDB DN失效切换处理步骤

86 阅读3分钟

告警解释

=======

当集群DN主实例失效(节点无法连接或者进程损坏等),GaussDB将备实例升为主实例时,产生该告警。

对系统的影响

  • DN主实例失效时,会发生DN失效切换。切换过程中集群无法对外提供服务,业务会闪断。
  • 切换完成后集群可正常对外提供服务,但是需要尽快修复失效的DN实例,保证集群的高可用。

可能原因

  • 手动停止节点操作。
  • DN主实例失效,无法对外提供服务。
  • DN主备实例连接断开。

处理步骤

  1. 在告警定位信息中获取实例ID。

  2. 登录DBS运维管理平台

  3. 选择“实例运维 > 任务管理”,右上角筛选条件选择“实例ID”,输入框中输入实例ID,执行搜索,查看是否在有停止节点“StopInstance”的工作流。

  4. 如果有手动停止节点操作,且除停止的节点外,其余节点状态正常,则当前集群状态正常。手动停止节点时,如果当前节点有主DN实例,会触发DN失效切换,备DN实例升为主DN实例,上报云数据库GaussDB DN失效切换告警。无需再进行下面的操作步骤。

  5. 选择当前实例的任一正常节点,参考登录实例节点,登录数据库节点。

  6. 执行以下命令检查集群状态。找到DN实例状态部分。

    cm_ctl query -Cvdipz ALL
    

    发生该告警后,通常DN主实例的状态是异常的,DN备实例升为DN主实例。例如下面示例中粗体标识部分。

    [  Datanode State   ]
    
    node                     node_ip         instance                             state            | node                     node_ip         instance                             state            | node                     node_ip         instance                             state
    ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
    az3.dc0 1  25.213.61.150 192.168.0.66    6001 /var/lib/engine/data1/data/dn_1 P Primary Normal | az4.dc0 2  25.213.10.25  192.168.0.107   6002 /var/lib/engine/data1/data/dn_2 S Standby Normal | az5.dc0 3  25.213.36.153 192.168.0.170   6003 /var/lib/engine/data1/data/dn_3 S Standby Normal
    az4.dc0 2  25.213.10.25  192.168.0.107   6004 /var/lib/engine/data2/data/dn_5 P Down Unknown | az3.dc0 1  25.213.61.150 192.168.0.66    6005 /var/lib/engine/data2/data/dn_4 S Primary Normal | az5.dc0 3  25.213.36.153 192.168.0.170   6006 /var/lib/engine/data2/data/dn_6 S Secondary Normal
    az5.dc0 3  25.213.36.153 192.168.0.170   6007 /var/lib/engine/data3/data/dn_9 P Primary Normal | az3.dc0 1  25.213.61.150 192.168.0.66    6008 /var/lib/engine/data3/data/dn_7 S Standby Normal | az4.dc0 2  25.213.10.25  192.168.0.107   6009 /var/lib/engine/data3/data/dn_8 S Standby Normal
    

    请继续确认原DN主实例所在节点上是否所有其他实例也异常。如果是,请执行7。如果否,请执行8

  7. 使用ping命令检查DN主备实例所在节点是否断连。

    ping 25.213.10.25 
    

    如果断连,修复节点连接。具体方法请参考《华为云Stack 8.3.1 应急预案》中的“数据库服务 > 云数据库 GaussDB > 运维案例库 > 租户面应急案例 > 节点修复”章节。

    如果修复失败,请联系网络人员修复网络后重试。

  8. 如果紧急情况需要恢复,请参考《华为云Stack 8.3.1 应急预案》中的“数据库服务 > 云数据库 GaussDB > 运维案例库 > 租户面应急案例 > 节点替换”章节进行节点替换。

    NOTICE:

    节点替换后,原节点的数据会被删除,节点将会被回收,替换前建议收集日志,供后续定位处理。收集日志的方法请参考《华为云Stack 8.3.1 应急预案》中的“数据库服务 > 云数据库 GaussDB > 运维案例库 > 租户面应急案例 > 节点替换”章节中的“日志收集要求”内容。

告警清除

此告警修复后,需要在当前告警页面手工清除此告警。

参考信息

不涉及。

更多详情请参考GaussDB 文档中心:doc.hcs.huawei.com/db/zh-cn/ga…