===
告警解释
数据库实例内核发现异常情况,产生此告警。具体告警处理流程需结合《GaussDB 内核告警补充说明》处理。
告警属性
告警ID
告警级别
告警类型
告警归属
业务类型
是否可自动清除
5014998
重要
业务质量告警
租户面
云数据库 GaussDB 节点
否
告警参数
类别
参数名称
参数含义
定位信息
云服务
产生告警的云服务
instanceId
产生告警的实例ID
nodeId
产生告警的数据库节点ID
{id:xxxx, name:xxxx, detail:xxxx, level:xxxx}
id:内核告警ID
name:内核告警名称
detail:内核告警描述
level:内核告警级别
附加信息
租户名称
产生告警的租户名称
实例名称
产生告警的实例名称
租户ID
产生告警的租户ID
云服务
产生告警的云服务
服务
产生告警的服务
微服务
产生告警的微服务
告警源IP
告警源IP
节点角色
产生告警节点的节点角色
其中针对表1展示的内核告警,以独立事件告警的形式上报,且不会自动恢复。处理完告警后,需要在“告警 > 告警管理 > 当前告警”页面,选中告警,单击页面上“清除”,手动清除该条告警。
其他告警信息汇聚成一条云数据库 GaussDB内核告警,该条告警可能包含多个内核告警,仅当所有内核告警全部修复时,该条告警才会自动清除。
表1 内核告警
内核告警名称
告警名
DatanodeSwitchOver
云数据库GaussDB DN主备切换事件告警
DatanodeFailOver
云数据库GaussDB DN失效切换事件告警
GTMSwitchOver
云数据库GaussDB GTM主备切换事件告警
GTMFailOver
云数据库GaussDB GTM失效切换事件告警
ServerSwitchOver
云数据库GaussDB CM_SERVER实例发生主备切换事件告警
BuildEvent
云数据库GaussDB 触发DN build事件告警
ForceFinishRedo
云数据库GaussDB Datanode强制停止Redo事件告警
CustomResourceError
云数据库GaussDB 自定义资源故障告警
对系统的影响
云数据库 GaussDB 内核告警配置了30+种场景的异常告警,系统影响情况不同,根据告警信息中的“name”字段,来区分具体的内核告警内容,并参考定位信息结合《GaussDB 内核告警补充说明》处理。
可能原因
详细告警信息以《GaussDB 内核告警补充说明》为准。
处理步骤
根据告警的定位信息描述,根据告警定位信息中的“name”字段,来区分具体的内核告警内容,参考《GaussDB 内核告警补充说明》处理告警。name对应的具体内核告警对应表如下所示。
表2 告警信息
name列内容
内核告警信息
告警项
AbnormalGTMInst
ALM_AI_AbnormalGTMInst
GTM实例异常。
AbnormalDatanodeInst
ALM_AI_AbnormalDatanodeInst
DN实例异常。
AbnormalGTMProcess
ALM_AI_AbnormalGTMProcess
GTM进程异常。
AbnormalCoordinatorProcess
ALM_AI_AbnormalCoordinatorProcess
Coordinator进程异常。
AbnormalDatanodeProcess
ALM_AI_AbnormalDatanodeProcess
DN进程异常。
DatanodeSwitchOver
ALM_AI_DatanodeSwitchOver
DN主备切换。
DatanodeFailOver
ALM_AI_DatanodeFailOver
DN失效切换。
GTMSwitchOver
ALM_AI_GTMSwitchOver
GTM主备切换。
GTMFailOver
ALM_AI_GTMFailOver
GTM失效切换。
AbnormalGTMSocket
ALM_AI_AbnormalGTMSocket
GTM实例SOCKET异常。
TransactionReadOnly
ALM_AI_TransactionReadOnly
数据库只读。
UnbalancedCluster
ALM_AI_UnbalancedCluster
集群平衡状态异常
AbnormalCMAProcess
ALM_AI_AbnormalCMAProcess
CM_AGENT进程异常。
AbnormalCMSProcess
ALM_AI_AbnormalCMSProcess
CM_SERVER进程异常。
AbnormalCmaConnFail
ALM_AI_AbnormalCmaConnFail
CM_AGENT连接数据库服务失败。
AbnormalPhonyDead
ALM_AI_AbnormalPhonyDead
DN实例、GTM实例、CN实例出现假死异常。
AbnormalETCDProcess
ALM_AI_AbnormalETCDProcess
ETCD进程异常。
AbnormalEtcdUnhealth
ALM_AI_AbnormalEtcdUnhealth
ETCD集群不健康。
AbnormalEtcdDown
ALM_AI_AbnormalEtcdDown
ETCD异常。
AbnormalDataInstDisk
ALM_AI_AbnormalDataInstDisk
DN实例磁盘异常。
AbnormalBuildFail
ALM_AI_AbnormalBuildFail
DN实例build失败。
BuildEvent
ALM_AI_BuildEvent
DN实例进行build。
ServerSwitchOver
ALM_AI_ServerSwitchOver
Server主备切换。
AbnormalEtcdNearQuota
ALM_AI_AbnormalEtcdNearQuota
ETCD磁盘数据文件过大。
StorageDilatationAlarmNotice
ALM_AI_StorageDilatationAlarmNotice
数据扩容接近配额。
StorageDilatationAlarmMajor
ALM_AI_StorageDilatationAlarmMajor
数据扩容已达配额。
StorageThresholdPreAlarm
ALM_AI_StorageThresholdPreAlarm
磁盘空间接近配额。
ForceFinishRedo
ALM_AI_ForceFinishRedo
强制停止Redo。
PgxcNodeMismatch
ALM_AI_PgxcNodeMismatch
CN系统表不一致。
StreamingDisasterRecoveryCnDisconnected
ALM_AI_StreamingDisasterRecoveryCnDisconnected
流式容灾CN断连。
StreamingDisasterRecoveryDnDisconnected
ALM_AI_StreamingDisasterRecoveryDnDisconnected
流式容灾DN断连。
CmsCnDrop
ALM_AI_CmsCnDrop
CN剔除。
CmsCnRepair
ALM_AI_CmsCnRepair
CN加回。
CnBuildEvent
ALM_AI_CnBuildEvent
CN加回build。
AbnormalProcess
ALM_AI_AbnormalProcess
进程长时间异常。
CusResInstErr
ALM_AI_CusResInstErr
自定义资源故障。
告警清除
此告警修复后,需要在当前告警页面手工清除此告警。
参考信息
不涉及。
更多详情请参考GaussDB 文档中心:doc.hcs.huawei.com/db/zh-cn/ga…