告警解释
=======
GaussDB在维护灾备关系中,会定期查询主或灾备的容灾状态,对于查询主或灾备的容灾状态异常(例如:主实例全量同步失败,备实例全量恢复失败,主实例增量同步失败,备实例增量恢复失败),或主的RPO超阈值、或灾备的RTO超阈值, 均会产生告警。
- RPO(Recovery Point Objective):即数据恢复点目标,指业务系统所能容忍的数据丢失量。
- RTO(Recovery Time Objective):即恢复时间目标,指业务系统所能容忍的停服最长时间。
对系统的影响
主实例和灾备实例的RPO默认10s, RTO默认600s,超出阈值大小对容灾可靠性有影响。
可能原因
- 当前的主/灾备实例状态异常。
- 主Region实例或备Region实例节点替换后没有刷新容灾集群信息。
处理步骤
-
使用浏览器,以VDC管理员或VDC业务员账号登录ManageOne。
非B2B场景登录地址:https://
ManageOne运营面的访问地址
B2B场景登录地址:https://
ManageOne租户面的访问地址
。例如,tenant.demo.com。
统一用户登录地址:https://
ManageOne主门户的访问地址
-
在页面左上角单击
,选择“数据库 > 云数据库 GaussDB”。进入云数据库 GaussDB控制台。
-
单击“容灾管理”进入容灾管理页面。
-
单击告警实例关联的容灾任务名称,可以看到当前容灾关系的RPO、RTO信息,检查当前容灾RPO、RTO是否超过阈值。
-
针对RTO RPO超出阈值,可按照以下步骤进行排查。
-
排查主备实例是否进行过节点替换,如果进行过节点替换,参考《云数据库 GaussDB 24.1.30 流容灾最佳实践 (for 华为云Stack 8.3.1)》中的“容灾期间,节点替换后刷新集群信息”章节刷新集群信息。
-
在“告警 > 告警管理 > 当前告警”中查看告警信息,获取告警中的实例ID,参考登录实例节点,登录实例任一节点。
-
执行如下命令,导入环境变量。
source /home/Ruby/gauss_env_file
-
执行如下指令,检查集群状态。
cm_ctl query -Cvid
如果当前集群状态异常,参考如下步骤修复集群。
-
进入“实例运维 > 通用表操作”页面,根据实例ID搜索实例Action:其中Action状态为 “OK_TO_RUN”,Action类型包含 “DISASTER_RELATION”字眼。
-
单击“切换状态”,切换实例Action状态,并记录切换过的Action。
-
根据异常组件类型,参考告警 ALM-5012947 云数据库 GaussDB ETCD服务异常 – ALM-5012951 云数据库 GaussDB DN服务异常进行修复。
-
待集群修复完成后,再次切换实例Action:切换的Action为记录的Action。
-
-
业务压力过大也会导致RPO和RTO超阈值。如因业务压力过大所致的异常,当业务压力降低时,会自动追平,告警自动消除。
如果仍然无法解决问题,请执行7。
-
-
如果发现主集群CN被踢除,且RPO超阈值,参考如下步骤处理。
-
参考登录实例节点,登录容灾主实例节点。
-
执行如下命令,导入环境变量
source /home/Ruby/gauss_env_file
-
执行如下指令,检查主集群状态。
cm_ctl query -Cvid
-
参考登录实例节点,登录灾备集群节点。
-
执行如下命令,导入环境变量
source /home/Ruby/gauss_env_file
-
执行如下指令,检查灾备集群状态。
cm_ctl query -Cvid
如图所示,CN状态为“disconnected”的即为需要停止的CN节点。
-
执行如下命令,停止灾备实例相关CN节点。
cm_ctl stop -n
NODEID
-D
DATADIR
NODEID需要替换为状态为“disconnected”的CN ID,DATADIR需要替换为CN节点的目录。
停止灾备实例CN后RPO可恢复。
-
等主实例具有容灾关系的CN修复后,可执行如下命令重启灾备实例对应的CN。
cm_ctl start -n
NODEID
-D
DATADIR
NODEID需要替换为已经停止的CN ID,DATADIR需要替换为CN节点的目录。
-
-
参考收集日志,下载节点日志,并收集告警信息、日志信息和配置信息,联系技术支持进行处理。
需要下载的日志路径如下:
Agent组件下的:
- /home/Ruby/log/agent.log
- /home/Ruby/log/asyncJobResult.dat
GaussDB Kernel组件下的:/var/lib/log/Ruby
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
不涉及。
更多详情请参考GaussDB 文档中心:doc.hcs.huawei.com/db/zh-cn/ga…