巡检指标告警列表
本章节提供巡检指标类告警上报的详细列表及配置建议。
该功能是用来设置告警阈值,通过设置实例ID或者租户和指标的关联关系,从而在指标达到告警条件(阈值、连续次数等)的时候产生告警。
配置实例告警阈值
-
选择“监控运维 > 告警管理 > 告警阈值配置”,进入告警阈值配置信息页面。
-
单击巡检列表上方的“新增实例告警阈值”。
-
在弹框中,所属引擎选择GaussDB,设置监控项名称,设置指标类型、触发时间、添加指标等信息。
添加指标可参考巡检配置规则。
告警阈值配置后,可以通过修改和删除更新告警阈值信息。
-
单击“确定”。
查看执行状态
通过该章节您可以查看巡检任务的历史状态。
- 登录DBS运维管理平台。
- 选择“监控运维 > 告警管理 > 告警阈值配置”,进入告警阈值配置信息页面。
- 选择指定的告警阈值配置项,单击“操作”列中的“更多 > 查看执行状态”。
巡检配置规则
-
查询区间:在指定时间范围内,条件满足要求,就触发告警。
-
阈值:设置巡检指标达到的一个最大值,就是满足触发告警的条件之一。
NOTICE:
其中阈值如果为0和1,1表示异常场景,0表示的是正常场景。例如巡检指标“ntp服务状态”,当阈值设置大于等于1时就表示ntp服务不正常的时候,满足触发告警的条件之一。
-
连续几次后告警:表示锁设置的阈值出现了几次达到当前阈值,就触发告警。
表1 指标列表
告警ID
告警名称
告警等级(推荐值)
查询区间
(手动设置)
查询规则
(手动设置)
表达式
(手动设置)
阈值
(手动设置)
阈值单位
连续几次后报警
(手动设置)
指标名称
采集间隔(min/次)
5014373
Ops巡检-auditd进程是否异常
重要
15分钟
1
>=
1
-
1
auditd进程是否异常
5
5014374
Ops巡检-iptables进程是否异常
重要
15分钟
1
>=
1
-
1
iptables进程是否异常
5
5014376
Ops巡检-ntpd进程是否异常
重要
15分钟
1
>=
1
-
1
ntpd进程是否异常
5
5101335
Ops巡检-iptables进程状态异常
重要
15分钟
1
>=
1
-
1
iptables进程状态
5
5101336
Ops巡检-crond进程状态异常
重要
15分钟
1
>=
1
-
1
crond进程状态
5
5101337
Ops巡检-ntpd进程状态异常
重要
15分钟
1
>=
1
-
1
ntpd进程状态
5
5101268
Ops巡检-dbmanager进程状态异常
重要
15分钟
1
>=
1
-
1
dbmanager进程状态
5
5101269
Ops巡检-watchdog进程状态异常
重要
15分钟
1
>=
1
-
1
watchdog进程状态
5
5101270
Ops巡检-agentmonitor进程状态异常
重要
15分钟
1
>=
1
-
1
agentmonitor进程状态
5
5101156
Ops巡检-主机流控时间异常
重要
15分钟
1
>=
1
-
1
主机流控时间
1
5101157
Ops巡检-备机RTO时间异常
重要
15分钟
1
>=
1
-
1
备机RTO时间
1
5101158
Ops巡检-用户登入次数异常
重要
15分钟
1
>=
1000
Count
1
用户登入次数/秒
1
5101159
Ops巡检-用户登出次数异常
重要
15分钟
1
>=
1000
Count
1
用户登出次数/秒
1
5101160
Ops巡检-备机redo进度,和主机的差距异常
重要
15分钟
1
>=
20000000
Byte
1
备机redo进度,和主机的差距
1
5101162
Ops巡检-处于锁等待状态下的会话比率 异常
重要
15分钟
1
>=
50
%
1
处于锁等待状态下的会话比率
1
5101163
Ops巡检-活跃会话率异常
重要
15分钟
1
>=
20
%
1
活跃会话率
1
5101166
Ops巡检-CN连接数异常
重要
15分钟
1
>=
80
Count
1
CN连接数
1
5101167
Ops巡检-Buffer 命中率异常
重要
15分钟
1
>=
99
%
1
buffer 命中率
1
5101169
Ops巡检-用户提交的事务数异常
重要
15分钟
1
>=
100000
Count
1
用户提交的事务数
1
5101170
Ops巡检-用户回滚的事务数异常
重要
15分钟
1
>=
1000
Count
1
用户回滚的事务数
1
5101171
Ops巡检-后台提交的事务数异常
重要
15分钟
1
>=
100000
Count
1
后台提交的事务数
1
5101172
Ops巡检-后台回滚的事务数异常
重要
15分钟
1
>=
1000
Count
1
后台回滚的事务数
1
5101173
Ops巡检-用户事务平均响应时间异常
重要
15分钟
1
>=
5000
us
1
用户事务平均响应时间
1
5101174
Ops巡检-用户事务回滚率异常
重要
15分钟
1
>=
1
-
1
用户事务回滚率
1
5101175
Ops巡检-后台事务回滚率异常
重要
15分钟
1
>=
1
-
1
后台事务回滚率
1
5101176
Ops巡检-Data Definition Language异常
重要
15分钟
1
>=
10
Count
1
Data Definition Language/s
1
5101177
Ops巡检-用户DML语句数异常
重要
15分钟
1
>=
50000
Count
1
Data Manipulation Language/s
1
5101178
Ops巡检-Data Control Language异常
重要
15分钟
1
>=
10
Count
1
Data Control Language/s
1
5101179
Ops巡检-DDL+DCL比率异常
重要
15分钟
1
>=
10
%
1
DDL+DCL比率
1
5101180
Ops巡检-80% SQL的响应时间异常
重要
15分钟
1
>=
2000
us
1
80% SQL的响应时间
1
5101181
Ops巡检-95% SQL的响应时间异常
重要
15分钟
1
>=
3000
us
1
95% SQL的响应时间
1
5101182
Ops巡检-待落盘的数据量异常
重要
15分钟
1
>=
524288000
Byte
1
待落盘的数据量
1
5101183
Ops巡检-读物理文件的IO次数异常
重要
15分钟
1
>=
40000
Count
1
读物理文件的IO次数
1
5101184
Ops巡检-写物理文件的IO次数异常
重要
15分钟
1
>=
40000
Count
1
写物理文件的IO次数
1
5101257
Ops巡检-线程池使用率异常
重要
15分钟
1
>=
80
%
1
线程池使用率
1
5101258
Ops巡检-实例占用内存上限异常
重要
15分钟
1
>=
81920
MB
1
实例占用内存上限
1
5101259
Ops巡检-进程已使用内存异常
重要
15分钟
1
>=
81920
MB
1
进程已使用内存
1
5101260
Ops巡检-进程内存使用率异常
重要
15分钟
1
>=
90
%
1
进程内存使用率
1
5101261
Ops巡检-动态内存使用上限异常
重要
15分钟
1
>=
40960
MB
1
动态内存使用上限
1
5101262
Ops巡检-已使用动态内存异常
重要
15分钟
1
>=
40960
MB
1
已使用动态内存
1
5101263
Ops巡检-动态内存使用率异常
重要
15分钟
1
>=
90
%
1
动态内存使用率
1
5101264
Ops巡检-已使用的其他内存异常
重要
15分钟
1
>=
2048
MB
1
已使用的其他内存
1
5101265
Ops巡检-已使用的共享内存异常
重要
15分钟
1
>=
40960
MB
1
已使用的共享内存
1
5101715
Ops巡检-活跃会话数量异常
重要
15分钟
1
>=
2048
Count
1
活跃会话数量
1
5101716
Ops巡检-等待会话数量异常
重要
15分钟
1
>=
2048
Count
1
等待会话数量
1
5101720
Ops巡检-CN临时目录大小异常
重要
15分钟
1
>=
1048576
MB
1
CN临时目录大小
1
5101721
Ops巡检-DN临时目录大小异常
重要
15分钟
1
>=
1048576
MB
1
DN临时目录大小
1
5101722
Ops巡检-ETCD数据目录大小异常
重要
15分钟
1
>=
52428
MB
1
etcd数据目录大小
60
5101723
Ops巡检-泄漏句柄数异常
重要
15分钟
1
>=
100
Count
1
泄漏句柄数
60
5101338
Ops巡检-xlog速率异常
重要
15分钟
1
>=
2048
Byte
1
xlog速率
1
5101717
Ops巡检-候选槽位数量异常
重要
15分钟
1
>=
131072
Count
1
候选槽位数量
1
5101718
Ops巡检-未落盘脏页数量异常
重要
15分钟
1
>=
131072
Count
1
未落盘脏页数量
1
5101339
Ops巡检-xlog数量异常
重要
15分钟
1
>=
512
Count
1
xlog数量
1
5101340
Ops巡检-系统库大小占用异常
重要
15分钟
1
>=
2147483647
Byte
1
系统库大小占用
1
5101341
Ops巡检-用户库(总体)大小占用异常
重要
15分钟
1
>=
2147483647
Byte
1
用户库(总体)大小占用
1
5101342
Ops巡检-SELECT分布异常
重要
15分钟
1
>=
99
%
1
select分布
1
5101343
Ops巡检-UPDATE分布异常
重要
15分钟
1
>=
99
%
1
update分布
1
5101344
Ops巡检-INSERT分布异常
重要
15分钟
1
>=
99
%
1
insert分布
1
5101345
Ops巡检-DELETE分布异常
重要
15分钟
1
>=
99
%
1
delete分布
1
5101346
Ops巡检-CN进程启动时间异常
重要
15分钟
1
>=
1609146944
-
1
CN进程启动时间
60
5101347
Ops巡检-DN进程启动时间异常
重要
15分钟
1
>=
1609146944
-
1
DN进程启动时间
60
5101348
Ops巡检-GTM进程启动时间异常
重要
15分钟
1
>=
1609146944
-
1
GTM进程启动时间
60
5101349
Ops巡检-CMS进程启动时间异常
重要
15分钟
1
>=
1609146944
-
1
CMS进程启动时间
60
5101350
Ops巡检-ETCD进程启动时间异常
重要
15分钟
1
>=
1609146944
-
1
ETCD进程启动时间
60
5101351
Ops巡检-CMA进程启动时间异常
重要
15分钟
1
>=
1609146944
-
1
CMA进程启动时间
60
5101352
Ops巡检-GTM进程内存占用异常
重要
15分钟
1
>=
2147483647
Byte
1
gtm进程内存占用
60
5101353
Ops巡检-ETCD进程内存占用异常
重要
15分钟
1
>=
2147483647
Byte
1
etcd进程内存占用
60
5101354
Ops巡检-CMS进程内存占用异常
重要
15分钟
1
>=
2147483647
Byte
1
cms进程内存占用
60
5101256
Ops巡检-ETCD盘使用率异常
重要
15分钟
1
>=
60
%
1
etcd盘使用率(仅混合部署)
60
5101355
Ops巡检-CMA进程内存占用异常
重要
15分钟
1
>=
2147483647
Byte
1
cma进程内存占用
60
5101714
Ops巡检-在线会话数量异常
重要
15分钟
1
>=
4096
Count
1
在线会话数量
1
5101719
Ops巡检-在线会话率异常
重要
15分钟
1
>=
99
%
1
在线会话率
1
5101754
Ops巡检-Statement数量异常
重要
15分钟
1
>=
200000
Count
1
statement数量
60
5101755
Ops巡检-系统库慢SQL数量异常
重要
15分钟
1
>=
100
Count
1
系统库慢SQL数量
60
5101756
Ops巡检-用户库慢SQL数量异常
重要
15分钟
1
>=
100
Count
1
用户库慢SQL数量
60
5101757
Ops巡检-OMA进程内存占用异常
重要
15分钟
1
>=
CPU核数*60*1024*1024
Byte
1
oma进程内存占用
60
5101759
Ops巡检-OM模块ERROR日志数量异常
重要
15分钟
1
>=
10000
Count
1
om模块ERROR日志数量
60
5101760
Ops巡检-CM模块ERROR日志数量异常
重要
15分钟
1
>=
10000
Count
1
cm模块ERROR日志数量
60
5101761
Ops巡检-内核ERROR日志数量异常
重要
15分钟
1
>=
10000
Count
1
内核ERROR日志数量
60
5101266
Ops巡检-om_agent进程状态异常
重要
15分钟
1
>=
1
-
1
om_agent进程状态
60
5101267
Ops巡检-om_monitor进程状态异常
重要
15分钟
1
>=
1
-
1
om_monitor进程状态
1
5101758
Ops巡检-OMA进程启动时间异常
重要
15分钟
1
>=
1609146944
-
1
oma进程启动时间
60
5101971
Ops巡检-云数据库 GaussDB流容灾RPO异常
重要
15分钟
1
>=
30
s
1
各个分片的实时RPO
1
5101972
Ops巡检-云数据库 GaussDB流容灾RTO异常
重要
15分钟
1
>=
900
s
1
各个分片的实时RTO
1
5101811
Ops巡检-数据库最长事务的执行时长超长
重要
15分钟
1
=
exist
-
1
数据库最长事务的执行时长
1
5101812
Ops巡检-复制槽保留的WAL日志大小超阈值
重要
15分钟
1
=
exist
-
1
复制槽保留的WAL日志大小超阈值
1
5014324
Ops巡检-CPU占用率过高
重要
15分钟
1
>=
80
%
1
cpu占用率过高
10s
5014327
Ops巡检-内存使用率过高
重要
15分钟
1
>=
80
%
1
内存使用率过高
10s
5014515
Ops巡检-系统网络每秒读字节
重要
15分钟
1
>=
50000000
Byte/s
1
数据写入量
10s
5014516
Ops巡检-系统网络每秒写字节
重要
15分钟
1
>=
50000000
Byte/s
1
数据传出量
10s
5014387
Ops巡检-内存剩余可用量不足
重要
15分钟
1
>=
9999
GB
1
内存剩余可用量不足
10s
5014518
Ops巡检-系统CPU负载
重要
15分钟
1
>=
10
%
1
系统cpu负载
1
5014519
Ops巡检-系统当前CPU负载
重要
15分钟
1
>=
10
%
1
系统当前cpu负载
1
5014328
Ops巡检-文件句柄使用率过高
重要
15分钟
1
=
exist
-
1
文件句柄使用率过高
1
5014329
Ops巡检-页交换空间使用率过高
重要
15分钟
1
>=
0
%
1
页交换空间使用率过高
1
5014594
Ops巡检-系统盘磁盘使用率
重要
15分钟
1
>=
1
%
1
系统盘磁盘使用率
1
5101139
Ops巡检-集群数据磁盘已使用百分比(sum(DN)/副本数)异常
重要
15分钟
1
>=
80
%
1
集群数据磁盘已使用百分比(sum(DN)/副本数)
1
5101142
Ops巡检-磁盘已使用百分比异常
重要
15分钟
1
>=
80
%
1
实例数据磁盘已使用大小
1
5101145
Ops巡检-日志磁盘已使用百分比异常
重要
15分钟
1
>=
80
%
1
日志磁盘已使用百分比
1
5101146
Ops巡检-磁盘每秒的读写次数异常
重要
15分钟
1
>=
50000000
Count
1
数据磁盘每秒读写次数
1
5101147
Ops巡检-日志磁盘每秒的读写次数异常
重要
15分钟
1
>=
5000
Count
1
日志磁盘每秒的读写次数
1
5101148
Ops巡检-磁盘的写吞吐量异常
重要
15分钟
1
>=
100
Byte
1
数据磁盘写吞吐量
1
5101149
Ops巡检-磁盘的读吞吐量异常
重要
15分钟
1
>=
100
Byte
1
数据磁盘读吞吐量
1
5101150
Ops巡检-日志磁盘的写吞吐量异常
重要
15分钟
1
>=
100
Byte
1
日志磁盘的写吞吐量
1
5101151
Ops巡检-日志磁盘的读吞吐量异常
重要
15分钟
1
>=
5000000
-
1
日志磁盘的读吞吐量
1
5101152
Ops巡检-数据盘每次写入花费的时间异常
重要
15分钟
1
>=
3
ms
1
数据盘每次写入花费的时间
1
5101153
Ops巡检-数据盘每次读取花费的时间异常
重要
15分钟
1
>=
3
ms
1
数据盘每次读取花费的时间
1
5101154
Ops巡检-日志磁盘每次写入花费的时间异常
重要
15分钟
1
>=
3
ms
1
日志磁盘每次写入花费的时间
1
5101155
Ops巡检-日志磁盘每次读取花费的时间异常
重要
15分钟
1
>=
3
ms
1
日志磁盘每次读取花费的时间
1
5101745
Ops巡检-备份盘使用率异常
重要
15分钟
1
>=
80
%
1
备份盘使用率
1
5101785
Ops巡检-数据磁盘访问耗时异常
重要
15分钟
1
>=
10
ms
1
数据磁盘访问耗时
1
5101924
Ops巡检-IOPS占用百分比异常
重要
15分钟
1
>=
80
%
1
iops占用百分比
1
5101186
Ops巡检-内核告警信息异常
重要
15分钟
1
>=
1
-
1
内核告警信息
1
5014384
Ops巡检-NTP服务状态异常
重要
15分钟
1
>=
1
-
1
ntp服务状态
60