告警解释
=======
当集群DN主实例失效(节点无法连接或者进程损坏等),GaussDB将备实例升为主实例时,产生该告警。
对系统的影响
- DN主实例失效时,会发生DN失效切换。切换过程中集群无法对外提供服务,业务会闪断。
- 切换完成后集群可正常对外提供服务,但是需要尽快修复失效的DN实例,保证集群的高可用。
可能原因
- 手动停止节点操作。
- DN主实例失效,无法对外提供服务。
- DN主备实例连接断开。
处理步骤
-
在告警定位信息中获取实例ID。
-
选择“实例运维 > 任务管理”,右上角筛选条件选择“实例ID”,输入框中输入实例ID,执行搜索,查看是否在有停止节点“StopInstance”的工作流。
-
如果有手动停止节点操作,且除停止的节点外,其余节点状态正常,则当前集群状态正常。手动停止节点时,如果当前节点有主DN实例,会触发DN失效切换,备DN实例升为主DN实例,上报云数据库GaussDB DN失效切换告警。无需再进行下面的操作步骤。
-
选择当前实例的任一正常节点,参考登录实例节点,登录数据库节点。
-
执行以下命令检查集群状态。找到DN实例状态部分。
cm_ctl query -Cvdipz ALL发生该告警后,通常DN主实例的状态是异常的,DN备实例升为DN主实例。例如下面示例中粗体标识部分。
[ Datanode State ] node node_ip instance state | node node_ip instance state | node node_ip instance state --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- az3.dc0 1 25.213.61.150 192.168.0.66 6001 /var/lib/engine/data1/data/dn_1 P Primary Normal | az4.dc0 2 25.213.10.25 192.168.0.107 6002 /var/lib/engine/data1/data/dn_2 S Standby Normal | az5.dc0 3 25.213.36.153 192.168.0.170 6003 /var/lib/engine/data1/data/dn_3 S Standby Normal az4.dc0 2 25.213.10.25 192.168.0.107 6004 /var/lib/engine/data2/data/dn_5 P Down Unknown | az3.dc0 1 25.213.61.150 192.168.0.66 6005 /var/lib/engine/data2/data/dn_4 S Primary Normal | az5.dc0 3 25.213.36.153 192.168.0.170 6006 /var/lib/engine/data2/data/dn_6 S Secondary Normal az5.dc0 3 25.213.36.153 192.168.0.170 6007 /var/lib/engine/data3/data/dn_9 P Primary Normal | az3.dc0 1 25.213.61.150 192.168.0.66 6008 /var/lib/engine/data3/data/dn_7 S Standby Normal | az4.dc0 2 25.213.10.25 192.168.0.107 6009 /var/lib/engine/data3/data/dn_8 S Standby Normal -
使用ping命令检查DN主备实例所在节点是否断连。
ping 25.213.10.25如果断连,修复节点连接。具体方法请参考《华为云Stack 8.3.1 应急预案》中的“数据库服务 > 云数据库 GaussDB > 运维案例库 > 租户面应急案例 > 节点修复”章节。
如果修复失败,请联系网络人员修复网络后重试。
-
如果紧急情况需要恢复,请参考《华为云Stack 8.3.1 应急预案》中的“数据库服务 > 云数据库 GaussDB > 运维案例库 > 租户面应急案例 > 节点替换”章节进行节点替换。
NOTICE:
节点替换后,原节点的数据会被删除,节点将会被回收,替换前建议收集日志,供后续定位处理。收集日志的方法请参考《华为云Stack 8.3.1 应急预案》中的“数据库服务 > 云数据库 GaussDB > 运维案例库 > 租户面应急案例 > 节点替换”章节中的“日志收集要求”内容。
告警清除
此告警修复后,需要在当前告警页面手工清除此告警。
参考信息
不涉及。
更多详情请参考GaussDB 文档中心:doc.hcs.huawei.com/db/zh-cn/ga…