GaussDB 巡检指标告警列表

77 阅读17分钟

巡检指标告警列表

本章节提供巡检指标类告警上报的详细列表及配置建议。

该功能是用来设置告警阈值,通过设置实例ID或者租户和指标的关联关系,从而在指标达到告警条件(阈值、连续次数等)的时候产生告警。

配置实例告警阈值
  1. 登录DBS运维管理平台

  2. 选择“监控运维 > 告警管理 > 告警阈值配置”,进入告警阈值配置信息页面。

  3. 单击巡检列表上方的“新增实例告警阈值”。

  4. 在弹框中,所属引擎选择GaussDB,设置监控项名称,设置指标类型、触发时间、添加指标等信息。

    添加指标可参考巡检配置规则

    告警阈值配置后,可以通过修改和删除更新告警阈值信息。

  5. 单击“确定”。

查看执行状态

通过该章节您可以查看巡检任务的历史状态。

  1. 登录DBS运维管理平台
  2. 选择“监控运维 > 告警管理 > 告警阈值配置”,进入告警阈值配置信息页面。
  3. 选择指定的告警阈值配置项,单击“操作”列中的“更多 > 查看执行状态”。
巡检配置规则
  • 查询区间:在指定时间范围内,条件满足要求,就触发告警。

  • 阈值:设置巡检指标达到的一个最大值,就是满足触发告警的条件之一。

    NOTICE:

    其中阈值如果为0和1,1表示异常场景,0表示的是正常场景。例如巡检指标“ntp服务状态”,当阈值设置大于等于1时就表示ntp服务不正常的时候,满足触发告警的条件之一。

  • 连续几次后告警:表示锁设置的阈值出现了几次达到当前阈值,就触发告警。

表1 指标列表

告警ID

告警名称

告警等级(推荐值)

查询区间

(手动设置)

查询规则

(手动设置)

表达式

(手动设置)

阈值

(手动设置)

阈值单位

连续几次后报警

(手动设置)

指标名称

采集间隔(min/次)

5014373

Ops巡检-auditd进程是否异常

重要

15分钟

1

>=

1

-

1

auditd进程是否异常

5

5014374

Ops巡检-iptables进程是否异常

重要

15分钟

1

>=

1

-

1

iptables进程是否异常

5

5014376

Ops巡检-ntpd进程是否异常

重要

15分钟

1

>=

1

-

1

ntpd进程是否异常

5

5101335

Ops巡检-iptables进程状态异常

重要

15分钟

1

>=

1

-

1

iptables进程状态

5

5101336

Ops巡检-crond进程状态异常

重要

15分钟

1

>=

1

-

1

crond进程状态

5

5101337

Ops巡检-ntpd进程状态异常

重要

15分钟

1

>=

1

-

1

ntpd进程状态

5

5101268

Ops巡检-dbmanager进程状态异常

重要

15分钟

1

>=

1

-

1

dbmanager进程状态

5

5101269

Ops巡检-watchdog进程状态异常

重要

15分钟

1

>=

1

-

1

watchdog进程状态

5

5101270

Ops巡检-agentmonitor进程状态异常

重要

15分钟

1

>=

1

-

1

agentmonitor进程状态

5

5101156

Ops巡检-主机流控时间异常

重要

15分钟

1

>=

1

-

1

主机流控时间

1

5101157

Ops巡检-备机RTO时间异常

重要

15分钟

1

>=

1

-

1

备机RTO时间

1

5101158

Ops巡检-用户登入次数异常

重要

15分钟

1

>=

1000

Count

1

用户登入次数/秒

1

5101159

Ops巡检-用户登出次数异常

重要

15分钟

1

>=

1000

Count

1

用户登出次数/秒

1

5101160

Ops巡检-备机redo进度,和主机的差距异常

重要

15分钟

1

>=

20000000

Byte

1

备机redo进度,和主机的差距

1

5101162

Ops巡检-处于锁等待状态下的会话比率 异常

重要

15分钟

1

>=

50

%

1

处于锁等待状态下的会话比率

1

5101163

Ops巡检-活跃会话率异常

重要

15分钟

1

>=

20

%

1

活跃会话率

1

5101166

Ops巡检-CN连接数异常

重要

15分钟

1

>=

80

Count

1

CN连接数

1

5101167

Ops巡检-Buffer 命中率异常

重要

15分钟

1

>=

99

%

1

buffer 命中率

1

5101169

Ops巡检-用户提交的事务数异常

重要

15分钟

1

>=

100000

Count

1

用户提交的事务数

1

5101170

Ops巡检-用户回滚的事务数异常

重要

15分钟

1

>=

1000

Count

1

用户回滚的事务数

1

5101171

Ops巡检-后台提交的事务数异常

重要

15分钟

1

>=

100000

Count

1

后台提交的事务数

1

5101172

Ops巡检-后台回滚的事务数异常

重要

15分钟

1

>=

1000

Count

1

后台回滚的事务数

1

5101173

Ops巡检-用户事务平均响应时间异常

重要

15分钟

1

>=

5000

us

1

用户事务平均响应时间

1

5101174

Ops巡检-用户事务回滚率异常

重要

15分钟

1

>=

1

-

1

用户事务回滚率

1

5101175

Ops巡检-后台事务回滚率异常

重要

15分钟

1

>=

1

-

1

后台事务回滚率

1

5101176

Ops巡检-Data Definition Language异常

重要

15分钟

1

>=

10

Count

1

Data Definition Language/s

1

5101177

Ops巡检-用户DML语句数异常

重要

15分钟

1

>=

50000

Count

1

Data Manipulation Language/s

1

5101178

Ops巡检-Data Control Language异常

重要

15分钟

1

>=

10

Count

1

Data Control Language/s

1

5101179

Ops巡检-DDL+DCL比率异常

重要

15分钟

1

>=

10

%

1

DDL+DCL比率

1

5101180

Ops巡检-80% SQL的响应时间异常

重要

15分钟

1

>=

2000

us

1

80% SQL的响应时间

1

5101181

Ops巡检-95% SQL的响应时间异常

重要

15分钟

1

>=

3000

us

1

95% SQL的响应时间

1

5101182

Ops巡检-待落盘的数据量异常

重要

15分钟

1

>=

524288000

Byte

1

待落盘的数据量

1

5101183

Ops巡检-读物理文件的IO次数异常

重要

15分钟

1

>=

40000

Count

1

读物理文件的IO次数

1

5101184

Ops巡检-写物理文件的IO次数异常

重要

15分钟

1

>=

40000

Count

1

写物理文件的IO次数

1

5101257

Ops巡检-线程池使用率异常

重要

15分钟

1

>=

80

%

1

线程池使用率

1

5101258

Ops巡检-实例占用内存上限异常

重要

15分钟

1

>=

81920

MB

1

实例占用内存上限

1

5101259

Ops巡检-进程已使用内存异常

重要

15分钟

1

>=

81920

MB

1

进程已使用内存

1

5101260

Ops巡检-进程内存使用率异常

重要

15分钟

1

>=

90

%

1

进程内存使用率

1

5101261

Ops巡检-动态内存使用上限异常

重要

15分钟

1

>=

40960

MB

1

动态内存使用上限

1

5101262

Ops巡检-已使用动态内存异常

重要

15分钟

1

>=

40960

MB

1

已使用动态内存

1

5101263

Ops巡检-动态内存使用率异常

重要

15分钟

1

>=

90

%

1

动态内存使用率

1

5101264

Ops巡检-已使用的其他内存异常

重要

15分钟

1

>=

2048

MB

1

已使用的其他内存

1

5101265

Ops巡检-已使用的共享内存异常

重要

15分钟

1

>=

40960

MB

1

已使用的共享内存

1

5101715

Ops巡检-活跃会话数量异常

重要

15分钟

1

>=

2048

Count

1

活跃会话数量

1

5101716

Ops巡检-等待会话数量异常

重要

15分钟

1

>=

2048

Count

1

等待会话数量

1

5101720

Ops巡检-CN临时目录大小异常

重要

15分钟

1

>=

1048576

MB

1

CN临时目录大小

1

5101721

Ops巡检-DN临时目录大小异常

重要

15分钟

1

>=

1048576

MB

1

DN临时目录大小

1

5101722

Ops巡检-ETCD数据目录大小异常

重要

15分钟

1

>=

52428

MB

1

etcd数据目录大小

60

5101723

Ops巡检-泄漏句柄数异常

重要

15分钟

1

>=

100

Count

1

泄漏句柄数

60

5101338

Ops巡检-xlog速率异常

重要

15分钟

1

>=

2048

Byte

1

xlog速率

1

5101717

Ops巡检-候选槽位数量异常

重要

15分钟

1

>=

131072

Count

1

候选槽位数量

1

5101718

Ops巡检-未落盘脏页数量异常

重要

15分钟

1

>=

131072

Count

1

未落盘脏页数量

1

5101339

Ops巡检-xlog数量异常

重要

15分钟

1

>=

512

Count

1

xlog数量

1

5101340

Ops巡检-系统库大小占用异常

重要

15分钟

1

>=

2147483647

Byte

1

系统库大小占用

1

5101341

Ops巡检-用户库(总体)大小占用异常

重要

15分钟

1

>=

2147483647

Byte

1

用户库(总体)大小占用

1

5101342

Ops巡检-SELECT分布异常

重要

15分钟

1

>=

99

%

1

select分布

1

5101343

Ops巡检-UPDATE分布异常

重要

15分钟

1

>=

99

%

1

update分布

1

5101344

Ops巡检-INSERT分布异常

重要

15分钟

1

>=

99

%

1

insert分布

1

5101345

Ops巡检-DELETE分布异常

重要

15分钟

1

>=

99

%

1

delete分布

1

5101346

Ops巡检-CN进程启动时间异常

重要

15分钟

1

>=

1609146944

-

1

CN进程启动时间

60

5101347

Ops巡检-DN进程启动时间异常

重要

15分钟

1

>=

1609146944

-

1

DN进程启动时间

60

5101348

Ops巡检-GTM进程启动时间异常

重要

15分钟

1

>=

1609146944

-

1

GTM进程启动时间

60

5101349

Ops巡检-CMS进程启动时间异常

重要

15分钟

1

>=

1609146944

-

1

CMS进程启动时间

60

5101350

Ops巡检-ETCD进程启动时间异常

重要

15分钟

1

>=

1609146944

-

1

ETCD进程启动时间

60

5101351

Ops巡检-CMA进程启动时间异常

重要

15分钟

1

>=

1609146944

-

1

CMA进程启动时间

60

5101352

Ops巡检-GTM进程内存占用异常

重要

15分钟

1

>=

2147483647

Byte

1

gtm进程内存占用

60

5101353

Ops巡检-ETCD进程内存占用异常

重要

15分钟

1

>=

2147483647

Byte

1

etcd进程内存占用

60

5101354

Ops巡检-CMS进程内存占用异常

重要

15分钟

1

>=

2147483647

Byte

1

cms进程内存占用

60

5101256

Ops巡检-ETCD盘使用率异常

重要

15分钟

1

>=

60

%

1

etcd盘使用率(仅混合部署)

60

5101355

Ops巡检-CMA进程内存占用异常

重要

15分钟

1

>=

2147483647

Byte

1

cma进程内存占用

60

5101714

Ops巡检-在线会话数量异常

重要

15分钟

1

>=

4096

Count

1

在线会话数量

1

5101719

Ops巡检-在线会话率异常

重要

15分钟

1

>=

99

%

1

在线会话率

1

5101754

Ops巡检-Statement数量异常

重要

15分钟

1

>=

200000

Count

1

statement数量

60

5101755

Ops巡检-系统库慢SQL数量异常

重要

15分钟

1

>=

100

Count

1

系统库慢SQL数量

60

5101756

Ops巡检-用户库慢SQL数量异常

重要

15分钟

1

>=

100

Count

1

用户库慢SQL数量

60

5101757

Ops巡检-OMA进程内存占用异常

重要

15分钟

1

>=

CPU核数*60*1024*1024

Byte

1

oma进程内存占用

60

5101759

Ops巡检-OM模块ERROR日志数量异常

重要

15分钟

1

>=

10000

Count

1

om模块ERROR日志数量

60

5101760

Ops巡检-CM模块ERROR日志数量异常

重要

15分钟

1

>=

10000

Count

1

cm模块ERROR日志数量

60

5101761

Ops巡检-内核ERROR日志数量异常

重要

15分钟

1

>=

10000

Count

1

内核ERROR日志数量

60

5101266

Ops巡检-om_agent进程状态异常

重要

15分钟

1

>=

1

-

1

om_agent进程状态

60

5101267

Ops巡检-om_monitor进程状态异常

重要

15分钟

1

>=

1

-

1

om_monitor进程状态

1

5101758

Ops巡检-OMA进程启动时间异常

重要

15分钟

1

>=

1609146944

-

1

oma进程启动时间

60

5101971

Ops巡检-云数据库 GaussDB流容灾RPO异常

重要

15分钟

1

>=

30

s

1

各个分片的实时RPO

1

5101972

Ops巡检-云数据库 GaussDB流容灾RTO异常

重要

15分钟

1

>=

900

s

1

各个分片的实时RTO

1

5101811

Ops巡检-数据库最长事务的执行时长超长

重要

15分钟

1

=

exist

-

1

数据库最长事务的执行时长

1

5101812

Ops巡检-复制槽保留的WAL日志大小超阈值

重要

15分钟

1

=

exist

-

1

复制槽保留的WAL日志大小超阈值

1

5014324

Ops巡检-CPU占用率过高

重要

15分钟

1

>=

80

%

1

cpu占用率过高

10s

5014327

Ops巡检-内存使用率过高

重要

15分钟

1

>=

80

%

1

内存使用率过高

10s

5014515

Ops巡检-系统网络每秒读字节

重要

15分钟

1

>=

50000000

Byte/s

1

数据写入量

10s

5014516

Ops巡检-系统网络每秒写字节

重要

15分钟

1

>=

50000000

Byte/s

1

数据传出量

10s

5014387

Ops巡检-内存剩余可用量不足

重要

15分钟

1

>=

9999

GB

1

内存剩余可用量不足

10s

5014518

Ops巡检-系统CPU负载

重要

15分钟

1

>=

10

%

1

系统cpu负载

1

5014519

Ops巡检-系统当前CPU负载

重要

15分钟

1

>=

10

%

1

系统当前cpu负载

1

5014328

Ops巡检-文件句柄使用率过高

重要

15分钟

1

=

exist

-

1

文件句柄使用率过高

1

5014329

Ops巡检-页交换空间使用率过高

重要

15分钟

1

>=

0

%

1

页交换空间使用率过高

1

5014594

Ops巡检-系统盘磁盘使用率

重要

15分钟

1

>=

1

%

1

系统盘磁盘使用率

1

5101139

Ops巡检-集群数据磁盘已使用百分比(sum(DN)/副本数)异常

重要

15分钟

1

>=

80

%

1

集群数据磁盘已使用百分比(sum(DN)/副本数)

1

5101142

Ops巡检-磁盘已使用百分比异常

重要

15分钟

1

>=

80

%

1

实例数据磁盘已使用大小

1

5101145

Ops巡检-日志磁盘已使用百分比异常

重要

15分钟

1

>=

80

%

1

日志磁盘已使用百分比

1

5101146

Ops巡检-磁盘每秒的读写次数异常

重要

15分钟

1

>=

50000000

Count

1

数据磁盘每秒读写次数

1

5101147

Ops巡检-日志磁盘每秒的读写次数异常

重要

15分钟

1

>=

5000

Count

1

日志磁盘每秒的读写次数

1

5101148

Ops巡检-磁盘的写吞吐量异常

重要

15分钟

1

>=

100

Byte

1

数据磁盘写吞吐量

1

5101149

Ops巡检-磁盘的读吞吐量异常

重要

15分钟

1

>=

100

Byte

1

数据磁盘读吞吐量

1

5101150

Ops巡检-日志磁盘的写吞吐量异常

重要

15分钟

1

>=

100

Byte

1

日志磁盘的写吞吐量

1

5101151

Ops巡检-日志磁盘的读吞吐量异常

重要

15分钟

1

>=

5000000

-

1

日志磁盘的读吞吐量

1

5101152

Ops巡检-数据盘每次写入花费的时间异常

重要

15分钟

1

>=

3

ms

1

数据盘每次写入花费的时间

1

5101153

Ops巡检-数据盘每次读取花费的时间异常

重要

15分钟

1

>=

3

ms

1

数据盘每次读取花费的时间

1

5101154

Ops巡检-日志磁盘每次写入花费的时间异常

重要

15分钟

1

>=

3

ms

1

日志磁盘每次写入花费的时间

1

5101155

Ops巡检-日志磁盘每次读取花费的时间异常

重要

15分钟

1

>=

3

ms

1

日志磁盘每次读取花费的时间

1

5101745

Ops巡检-备份盘使用率异常

重要

15分钟

1

>=

80

%

1

备份盘使用率

1

5101785

Ops巡检-数据磁盘访问耗时异常

重要

15分钟

1

>=

10

ms

1

数据磁盘访问耗时

1

5101924

Ops巡检-IOPS占用百分比异常

重要

15分钟

1

>=

80

%

1

iops占用百分比

1

5101186

Ops巡检-内核告警信息异常

重要

15分钟

1

>=

1

-

1

内核告警信息

1

5014384

Ops巡检-NTP服务状态异常

重要

15分钟

1

>=

1

-

1

ntp服务状态

60