===
告警解释
云数据库 GaussDB替换集群节点失败,产生此告警。
告警属性
告警ID
告警级别
告警类型
告警归属
业务类型
是否可自动清除
5023031
重要
操作告警
租户面
云数据库 GaussDB
是
告警参数
类别
参数名称
参数含义
定位信息
云服务
产生告警的云服务
系统
产生告警的系统
模块
产生告警的模块
实例ID
产生告警的实例ID
实例名称
产生告警的实例名称
实例数据IP
产生告警的实例的数据浮动IP列表。在没有数据浮动IP时不展示此字段。
工作ID
产生告警的工作流ID
任务名
执行失败的工作流任务名
附加信息
租户名称
产生告警的租户名称
实例名称
产生告警的实例名称
云服务
产生告警的云服务
服务
产生告警的服务
微服务
产生告警的微服务
告警源IP
告警源IP
对系统的影响
节点替换失败会导致故障节点持续不可用。
可能原因
-
创建服务器JOB运行失败,资源管理或IAAS报错。
-
不满足节点替换条件。
节点替换条件如下:
- 替换的主机上不能含有主DN。
- 集群内如下实例分别至少存在一个正常运行的:CM Server、CM Agent、CN(仅混合部署)。
- 正常的ETCD个数必须大于ETCD总个数的一半。
- 如果集群中部署有GTM,需保证至少存在一个正常运行的GTM实例(仅混合部署)。
- 修复CN实例过程中,在CN状态未变为Normal前,不能连接该CN执行业务(仅混合部署)。
处理步骤
-
使用浏览器,通过地址“https://
ManageOne运维面主页的访问地址
:31943”,登录ManageOne运维面,或通过地址“https://
ManageOne主门户的访问地址
”,登录ManageOne主门户,选择“运维中心(OC)”,进入ManageOne运维面。
- 密码方式:输入账号和密码。
-
默认账号:bss_admin
对于从8.2.0或更早版本升级上来的ManageOne,默认账号为admin。
-
默认密码:参见《华为云Stack 8.3.1 账户一览表》的“A类(Portal)”页签中,“ManageOne运维面”账户对应的默认密码。
-
- USB Key方式:插入已预置用户证书的USB Key,选择设备和用户证书,并输入PIN码。
- 密码方式:输入账号和密码。
-
在“告警 > 告警管理 > 当前告警”中查看告警,获取告警中的实例ID或者工作ID。
-
单击上方菜单栏的“首页”,返回首页。
-
在ManageOne运维面右下角“常用链接”栏中单击“ServiceCM”,跳转到ServiceCM插件列表界面。
-
在ServiceCM插件列表界面,单击“自助开发平台 > dbs-ops”,进入DBS运维管理平台。
-
选择“实例运维 > 任务管理”,右上角筛选条件选择“实例ID”或“任务流ID”,输入框中输入上一步获取的实例ID或工作ID,执行搜索。
“失败原因”列输出了失败时的程序错误日志。单击“树表”,则可以查看任务失败具体的环节。
-
根据6中任务执行结果,定位不同的故障场景操作。
-
参考下载管理节点日志和收集日志,并收集告警信息,联系技术支持进行处理。
需要下载的日志信息有:
管理侧:
- DBS-GaussDB-backupmanager组件下的日志。
- DBS-GaussDB-instancemanager组件下的日志。
租户侧:
Agent组件下的:
- /home/Ruby/log/agent.log
- /home/Ruby/log/asyncJobResult.dat
GaussDB Kernel组件下的:
/var/lib/log/Ruby
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
不涉及。
更多详情请参考GaussDB 文档中心:doc.hcs.huawei.com/db/zh-cn/ga…