告警解释
=======
GaussDB在备节点升主之后,原主节点的数据盘会切换到冷备节点上,由于主节点异常存在节点掉电无法操作,节点网络故障命令无法下发等,可能存在数据盘切换失败的场景,会产生告警,需要人工确认机器正常之后执行后续操作。
对系统的影响
存储切换状态下,无法进行下一次的存储切换,且容灾操作也不允许进行。
可能原因
节点掉电无法操作,节点网络故障命令无法下发等。
处理步骤
-
在运维管理平台中找到对应实例,在工作流中找到执行失败的SwitchGaussDBV5Volume工作流,查看工作流失败原因:
-
在运维管理平台实例详情页面确认节点降为冷备节点。
-
登录对应节点。
-
使用root用户执行命令。
lvs
如上图所示,mydata1卷组显示存在,首先尝试重试失败任务,如果不存在mydata1,说明故障机器已经发生重启,则直接跳至3进行任务跳过。
-
参考如下步骤重试失败任务。
-
判断数据盘分区还未清理,重做RestoreCrashNodeTask任务,流程正常完成,如果仍然WaitRestoreCrashNodeTask失败,进行下一步。
-
如果正常重做任务无法清理数据盘信息,尝试手动通过dmsetup工具删除故障数据盘:
dmsetup remove /dev/mapper/gaussdbvg1-mydata1
删除故障数据盘可能会失败,多次重试仍然不能成功删除数据盘分区,尝试重启故障节点操作系统,即可清理数据盘分区信息。
-
手动dmsetup删除或者重启机器后,检查数据盘分区和挂载已经清理,则进行下一步骤跳过失败任务。
-
-
-
单击WaitRestoreCrashNodeTask右下角箭头,跳过任务。
确认工作流执行结束即可。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
不涉及。
更多详情请参考GaussDB 文档中心:doc.hcs.huawei.com/db/zh-cn/ga…