云数据库 GaussDB Dorado容灾集群升主失败解决方法告警解释云数据库GaussDB容灾中，当因主集群发生不可

告警解释

=======

云数据库GaussDB容灾中，当因主集群发生不可恢复故障，可对灾备集群进行升主操作，缩短业务停服时间，灾备实例升主过程失败产生告警。

对系统的影响

灾备集群升主失败，影响容灾功能使用。

可能原因

Dorado 故障。
升主过程中灾备实例故障。

处理步骤

使用浏览器，通过地址“https://

ManageOne运维面主页的访问地址

:31943”，登录ManageOne运维面，或通过地址“https://

ManageOne主门户的访问地址

”，登录ManageOne主门户，选择“运维中心（OC）”，进入ManageOne运维面。
- 密码方式：输入账号和密码。
  - 默认账号：bss_admin
    
    对于从8.2.0或更早版本升级上来的ManageOne，默认账号为admin。
  - 默认密码：参见《华为云Stack 8.3.1 账户一览表》的“A类（Portal）”页签中，“ManageOne运维面”账户对应的默认密码。
- USB Key方式：插入已预置用户证书的USB Key，选择设备和用户证书，并输入PIN码。
在“告警 > 告警管理 > 当前告警”中查看告警信息，获取告警中的实例ID或者工作ID。
单击上方菜单栏的“首页”，返回首页。
在ManageOne运维面页面的“常用链接”栏中单击“ServiceCM”，跳转到ServiceCM插件列表界面。
在ServiceCM插件列表界面，单击“自助开发平台 > dbs-ops”，进入“DBS运维管理平台”。
选择“实例运维 > 任务管理”，右上角筛选条件选择“实例ID”或“任务流ID”，输入框中输入告警定位信息中的实例ID或工作ID，单击“搜索”。

“失败原因”列输出了失败时的程序错误日志。单击“树表”，则可以查看任务失败具体的环节。
根据6中失败的Task，进行不同的操作。
- 场景一：“WaitResourceManagerAsynTask”任务失败。可能灾备实例一侧Dorado故障，导致执行Dorado切换失败。
  
  查看子任务流，进到资源管理ResourceManager 查看日志。可能因Dorado故障导致作Dorado切换失败。联系Dorado环境管理人员，检查Dorado 是否正常。
  
  解决方案：待Dorado恢复正常后，先在子工作流中对应失败任务重试成功后，在当前工作流的失败“WaitResourceManagerAsynTask”重试。
- 场景二：“WaitDisasterFailoverOnDoradoTask”任务失败，可能因灾备节点异常，导致灾备实例的内核升主执行失败。
  1. 检查集群状态执行如下指令，检查集群状态。
    
    cm_ctl query –Cvid
  2. 如果因硬件故障，导致集群状态异常，请修复硬件故障后，重新在当前“FailOverOnDoradoTask”重试。
    
    如果重做仍然失败，执行9。
如果当前使用跨云容灾的方式，容灾任务流全部解决完后需处理跨云的任务流，详细内容请参考修复任务下发端主容灾任务。
下载节点日志，并收集告警信息、日志信息和配置信息，联系技术支持进行处理。

需要下载的日志信息有：

管理侧：

DBS-GaussDB-instancemanager组件下的日志。

租户侧：

agent组件下的：
- /home/Ruby/log/agent.log
- /home/Ruby/log/asyncJobResult.dat

告警清除

此告警修复后，系统会自动清除此告警，无需手工清除。

参考信息

不涉及。

更多详情请参考GaussDB 文档中心：doc.hcs.huawei.com/db/zh-cn/ga…