【YashanDB监控运维平台(YCM)】监控指标

56 阅读5分钟

监控指标

网页路径:【资源监控】>【监控指标库】

supervisionindex

功能介绍

管理平台提供了丰富的监控指标库,覆盖了数据库、操作系统和服务器的绝大部分关键指标,可以帮助您实时了解目标对象的运行状态、性能、资源用量以及负载等。同时,为日常运维、性能调优等提供丰富的数据基础,助力于及时预防、发现并解决问题,避免问题扩大而产生业务影响。

默认监控指标

系统提供了丰富的默认监控指标,默认监控指标不支持编辑和删除。系统提供的默认监控指标如下表所示:

指标名称指标类型表达式
YashanDB高频SQL数量YashanDBcount(increase(yashandb_high_frequencies_sql[1h])>10000)by(yasdbName,nodeId)
YashanDB锁等待数量YashanDByashandb_lock_waits
YashanDB每秒执行事务数YashanDBirate(yashandb_transactions[1m])
YashanDB每秒执行查询数YashanDBirate(yashandb_querys[1m])
YashanDB每秒执行操作数YashanDBirate(yashandb_operations[1m])
YashanDB进程打开文件数YashanDBnode_monit_file_open
YashanDB进程内存使用总量YashanDBnode_monit_mem_total
YashanDB进程内存利用率YashanDBnode_monit_mem_uasge
YashanDB进程CPU使用率YashanDBnode_monit_cpu_uasge
YashanDB当前等待事件数量YashanDByashandb_current_waits
YashanDB进程内存读取次数YashanDByashandb_buffer_gets
YashanDB进程磁盘读取时间YashanDByashandb_disk_read_time
YashanDB不活跃用户会话数量YashanDByashandb_user_inactive_sessions
YashanDB活跃用户会话数量YashanDByashandb_user_active_sessions
YashanDB系统会话数量YashanDByashandb_system_sessions
YashanDB最大会话数量YashanDByashandb_max_sessions
YashanDB当前会话数量YashanDByashandb_current_sessions
YashanDB会话使用率YashanDByashandb_current_sessions/yashandb_max_sessions*100
YashanDB表空间使用率YashanDByashandb_tablespace_used_percentage
YashanDB版本检测YashanDByashandb_instance_version
YashanDB数据库状态YashanDByashandb_database_status
YashanDB实例连接状态YashanDByashandb_instance_disconnected
YashanDB主库数量统计YashanDBcount(yashandb_database_database_role{nodeType!="yascn"} == 1) by(yasdbName, nodeType, nodeGroup)
Yasdn进程启动用户检测YashanDBnode_monit_check_user{nodeType="yasdn"}
Yascn进程启动用户检测YashanDBnode_monit_check_user{nodeType="yascn"}
Yasmn进程启动用户检测YashanDBnode_monit_check_user{nodeType="yasmn"}
YashanDB实例进程状态YashanDBnode_monit_check_status{type="mix", processType="yasdb"}
YashanDB存在异常长事务YashanDByashandb_alert_long_transactions
YashanDB主库与备库同步延迟过高YashanDByashandb_sync_delay
YashanDB DN的max_workers小于所有CN的max_workers之和YashanDByashandb_max_workers{nodeType="yasdn"} - on(yasdbName) group_left sum(yashandb_max_workers{nodeType="yascn"}) by (yasdbName)
YashanDB自选举发送心跳的周期配置YashanDBmin(yashandb_ha_heartable_interval) by (yasdbName, nodeGroup, nodeType) - max(yashandb_ha_heartable_interval) by (yasdbName, nodeGroup, nodeType)
YashanDB自选举心跳超时时间配置YashanDBmin(yashandb_ha_election_timeout) by (yasdbName, nodeGroup, nodeType) - max(yashandb_ha_election_timeout) by (yasdbName, nodeGroup, nodeType)
YashanDB自选举开关配置YashanDBmin(yashandb_ha_election_enabled) by (yasdbName, nodeGroup, nodeType) - max(yashandb_ha_election_enabled) by (yasdbName, nodeGroup, nodeType)
YashanDB默认表类型YashanDBmin(yashandb_default_table_type) by (yasdbName) - max(yashandb_default_table_type) by (yasdbName)
YashanDB表空间(UNDO)使用率YashanDB((yashandb_dba_tablespace_total_bytes - (yashandb_dba_tablespace_user_bytes+yashandb_dba_tablespace_block_size*(yashandb_undo_segments_ublk_count_total+yashandb_undo_segments_ufb_count_total)))/yashandb_dba_tablespace_max_size{name="UNDO"})*100
YashanDB表空间占用大小YashanDByashandb_sum_tablespaces
YashanDB实例类型最小值YashanDBmin(yashandb_database_database_role{nodeType!="yascn", yasdbType!="CE"}) by(yasdbName, nodeType, nodeGroup)
YashanDB超过三分钟的事务YashanDByashandb_long_transactions
YashahDB主库与备库延迟YashanDByashandb_sync_delay
YashanDB SQL平均响应时间YashanDByashandb_avg_elapsed_time_sec
YashanDB进程缓存命中率YashanDByashandb_cache_hit_ratio
YashanDB进程磁盘读取次数YashanDByashandb_disk_reads
YashanDB审计日志YashanDBinternal_yasdb_audit
慢SQL执行时间(秒)YashanDBinternal_slow_sql_elapsed_time
存储过程慢SQL执行时间(秒)YashanDBinternal_slow_procedure_elapsed_time
数据库升级失败YashanDBcluster_upgrade_failed
数据库回滚失败YashanDBcluster_rollback_failed
网络吞吐量(传输)主机irate(node_network_transmit_bytes_total[5m])/128/1024
网络吞吐量(接收)主机irate(node_network_receive_bytes_total[5m])/128/1024
磁盘IOPS(写)主机irate(node_disk_writes_completed_total[1m])
磁盘IOPS(读)主机irate(node_disk_reads_completed_total[1m])
交换分区使用率主机(1-(node_memory_SwapFree_bytes)/(node_memory_SwapTotal_bytes>0)) * 100
CPU平均负载主机node_load1
网络可用性检测主机node_network_unavailable
网络时延主机node_network_rtt
网络丢包率主机node_network_packet_loss
IP地址检测主机node_network_ip_exists
磁盘使用率主机max((node_filesystem_size_bytes{fstype=~'ext.?xfs'}-node_filesystem_free_bytes{fstype=~'ext.?xfs'})*100/(node_filesystem_avail_bytes {fstype=~'ext.?xfs'}+(node_filesystem_size_bytes{fstype=~'ext.?xfs'}-node_filesystem_free_bytes{fstype=~'ext.?xfs'})))by(instance,job)
内存剩余容量主机node_memory_MemFree_bytes/1024/1024
内存使用率主机(1-(node_memory_MemAvailable_bytes) / node_memory_MemTotal_bytes) * 100
Ycm-Agent进程启动用户检测主机node_monit_check_user{processName="ycm-agent"}
NodeExporter进程启动用户检测主机node_monit_check_user{processName="node-exporter"}
YashanDBExporter服务状态主机up{job="yashandb_exporter"}
NodeExporter服务状态主机up{job=~"host.*"}
YCPAgent进程状态主机node_monit_check_status{type="mix", processName="ycm-agent"}
Monit进程状态主机node_monit_monit_down
CPU使用率主机(1-(sum(increase(node_cpu_seconds_total{mode='idle'}[1m]))by(instance,job))/(sum(increase(node_cpu_seconds_total[1m]))by(instance,job)))*100
CPU I/O等待主机(sum(increase(node_cpu_seconds_total{mode='iowait'}[1m]))by(instance,job))/(sum(increase(node_cpu_seconds_total[1m]))by(instance,job))*100

监控指标主要用于监控大盘和告警项。默认的监控指标会生成默认告警项和添加到默认监控大盘。

Note

默认监控大盘中只会添加部分具有图表展示意义的默认监控指标,也只有部分默认监控指标会生成默认告警项。

监控指标支持通过指标名称对监控指标进行搜索。

创建指标

网页路径:【创建指标】

功能介绍

除了系统提供的默认监控指标,还可以通过单击【创建指标】,输入指标名称、指标类型、单位和表达式,创建自定义监控指标。

自定义监控指标支持编辑和删除,但不允许删除已关联告警项的自定义监控指标。

主要内容解释

【指标名称】 :监控指标的名称,必填参数,长度范围为[1,24]个字符,名称必须唯一。

【指标类型】 :监控指标所属的资源对象的类型,分为数据库(YashanDB)和主机,必填参数。

【表达式】 :表达式语法为PromQL,指标可参考默认监控指标。