对系统的影响
部分节点不可用。
可能原因
- 主机服务器系统崩溃。
- 数据库进程崩溃。
处理步骤
-
从告警定位信息中获取实例ID。
-
在“实例管理”的“实例列表”页签的高级搜索中,通过实例ID搜索到该实例,单击实例名称,进入“GaussDB基本信息”页面。
-
根据告警信息中的节点ID,在“节点列表模块中找到对应节点”,复制节点名称。
-
参考查看实例节点状态,确认服务器是否正常,如果不正常,执行节点替换,尝试替换异常节点。如果正常,执行节点修复,尝试修复异常节点。
GaussDB提供节点修复和节点替换功能,具体操作请参考中的《华为云Stack 8.3.1 应急预案》中的“数据库服务 > 云数据库 GaussDB > 运维案例库 > 租户面应急案例”中的“节点修复”或“节点替换”章节。
如果节点修复或节点替换失败,请执行6。
-
参考下载管理节点日志和收集日志,并收集告警信息,联系技术支持进行处理。
需要下载的日志信息有:
管理侧:
- DBS-GaussDB-backupmanager组件下的日志。
- DBS-GaussDB-instancemanager组件下的日志。
租户侧:
Agent组件下的:
- /home/Ruby/log/agent.log
- /home/Ruby/log/asyncJobResult.dat
GaussDB Kernel组件下的:/var/lib/log/Ruby
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
可以参考节点状态异常告警触发时间配置,调整GaussDB节点状态异常告警的触发时间。