GaussDB-趋势看板

208 阅读12分钟

GaussDB-趋势看板

操作场景

云数据库GaussDB管理平台(TPOPS)提供实例详细的状态监控能力,用户可以直观的在监控大盘的趋势看板查看具体实例的详细情况,主要包括CPU/内存、磁盘/存储、网络、连接、业务负载、锁、同步状态、进程资源、实例信息、管控Agent状态和容灾状态。

前提条件

实例信息指标为白名单功能,白名单默认开启。

若未开启,请在使用前手动开启白名单,特性白名单名称为:gaussdb_feature_supportInstanceStatusMetric。如何开启请参见如何开启白名单

约束限制

仅容灾主实例可查看容灾状态。

操作步骤
  1. 登录云数据库GaussDB管理平台(TPOPS)

  2. 单击“监控巡检 > 监控大盘”,查看列表看板。

  3. 选定待查看实例,单击“实例名称/ID”,查看该实例的趋势看板。

    可选择查看时间,默认显示近1小时的数据,也可自定义查看时间。

    图1 监控指标

  4. 选择具体实例后单击可查看具体分类下的详细信息。

    鼠标放在折线图上,可以显示具体时间下的详细数值。单击可放大查看。

    图2 趋势看板

    参数名称参数解释
    CPU使用率实例各节点平均CPU使用率(%)。
    内存使用率实例各节点平均内存使用率(%)。
    CPU系统使用占比实例各节点平均CPU系统使用占比(%)。
    CPU用户使用占比实例各节点平均CPU用户使用占比(%)。
    CPU空闲占比实例各节点平均CPU空闲占比(%)。
    CPU负载实例各节点平均CPU负载。
    内存已使用空间实例各节点平均内存已使用空间(GB)。
    内存缓冲空间实例各节点平均内存缓冲空间(GB)。
    内存缓存空间实例各节点平均内存缓存空间(GB)。
    内存可用空间实例各节点平均内存可用空间(GB)。
    内存总交换空间实例各节点平均内存总交换空间(MB)。
    内存已使用交换空间实例各节点平均内存已使用交换空间(MB)。
    内存已使用交换空间比例实例各节点平均内存已使用交换空间比例(%)。
    CPU I/O等待占比实例各节点平均CPU I/O等待占比(%)。
    参数名称参数解释
    磁盘读速率实例数据磁盘平均读速率(Byte/s)。
    磁盘写速率实例数据磁盘平均写速率(Byte/s)。
    数据磁盘总空间大小实例数据磁盘平均总空间大小(GB)。
    数据磁盘已使用空间大小实例数据磁盘平均已使用空间大小(GB)。
    数据磁盘空间使用率实例数据磁盘平均空间使用率(%)。
    数据磁盘每秒读写次数实例数据磁盘平均每秒读写次数。
    数据磁盘单次写入花费的时间实例数据磁盘平均单次写入花费的时间(ms)。
    数据磁盘单次读取花费的时间实例数据磁盘平均单次读取花费的时间(ms)。
    磁盘Svctm实例数据磁盘平均访问耗时(ms)。
    NAS使用率实例挂载的NAS盘平均使用率(%)。
    信号量实例各节点信号量。
    泄露句柄数实例各节点泄露句柄数。
    系统磁盘空间使用率实例各节点系统磁盘空间使用率(%)。
    磁盘inode使用率实例各节点磁盘inode使用率(%)。
    参数名称参数解释
    网卡当前接收速率实例网卡当前平均接收速率(Byte/s)。
    网卡当前发送速率实例网卡当前平均发送速率(Byte/s)。
    接受错误包实例网卡接受错误包率(%)。
    丢弃错误包实例网卡丢弃错误包率(%)。
    发送错误包实例网卡发送错误包率(%)。
    重传错误包实例网卡重传错误包率(%)。
    参数名称参数解释
    用户登入次数每秒实例用户平均登录次数每秒。
    用户登出次数每秒实例用户平均登出次数每秒。
    在线会话数量当前实例上所有数据库的在线会话数。
    活跃会话数量当前实例上所有数据库的活跃会话数。
    等待会话数量当前实例上所有数据库的等待会话数。
    等待会话率当前实例上所有数据库的等待会话占活跃会话的比率(%)。
    等锁会话数量当前实例上所有数据库的等锁会话数量。
    等锁会话率当前实例上所有数据库的等锁会话占活跃会话比率(%)。
    CN连接数当前实例上每个CN节点上的连接数,仅支持分布式。
    活跃会话率当前实例上所有数据库的活跃会话占总会话(活跃+空闲)的比率(%)。
    在线会话率当前实例上所有数据库的在线会话占最大会话数的比率(%)。
    参数名称参数解释
    用户成功事务数每秒当前实例上所有数据库平均每秒执行的用户成功事务。
    用户失败事务数每秒当前实例上所有数据库平均每秒执行的用户失败事务。
    用户总事务数每秒当前实例上所有数据库平均每秒执行的用户成功事务与失败事务的和。
    实时用户事务成功率当前实例上所有数据库执行的实时用户事务中,成功事务占总事务的比率(%)。
    历史用户事务失败率实例上所执行过的用户事务中,失败事务占总事务的比率(%)。
    平均SQL执行数当前实例上所有数据库平均每秒执行的SQL(包括DML/DDL/DCL)数。
    80%SQL响应时间当前实例上的80%的SQL执行时间(us)。
    后台回滚事务数当前实例上所有数据库平均每秒后台回滚的事务数。
    历史后台事务回滚率实例上所执行过的后台事务中,回滚事务占总事务的比率(%)。
    平均DDL每秒当前实例上所有数据库平均每秒执行的DDL语句数。
    平均DML每秒当前实例上所有数据库平均每秒执行的DML语句数。
    平均DCL每秒当前实例上所有数据库平均每秒执行的DCL语句数。
    历史DDL+DCL比率实例上所有数据库所执行过的SQL中,DDL+DCL占DDL、DCL、DML总和的比率(%)。
    平均INSERT每秒当前实例上所有数据库平均每秒执行的INSERT语句数。
    平均DELETE每秒当前实例上所有数据库平均每秒执行的DELETE语句数。
    平均UPDATE每秒当前实例上所有数据库平均每秒执行的UPDATE语句数。
    平均SELECT每秒当前实例上所有数据库平均每秒执行的SELECT语句数。
    95%SQL响应时间当前实例上的95%的SQL执行时间(us)。
    后台提交事务数当前实例上所有数据库平均每秒后台提交的事务数。
    用户事务平均响应时间当前实例上所有数据库的用户事务平均响应时间(us)。
    数据库最长事务的执行时长当前实例上数据库中最长事务的执行时长(s)。
    SELECT语句占比当前实例上所有数据库执行语句中SELECT语句的比例(%)。
    UPDATE语句占比当前实例上所有数据库执行语句中UPDATE语句的比例(%)。
    INSERT语句占比当前实例上所有数据库执行语句中INSERT语句的比例(%)。
    DELETE语句占比当前实例上所有数据库执行语句中DELETE语句的比例(%)。
    statement数量当前实例上唯一SQL的数量。
    参数名称参数解释
    死锁次数当前实例上数据库发生事务死锁的次数。
    表级锁总数当前实例上数据库表级锁的总数。
    行级锁总数当前实例上数据库行级锁的总数。
    其他锁总数当前实例上数据库其他锁的总数。
    数据库锁总数当前实例上数据库锁的总数。
    参数名称参数解释
    主机流控时间主机流控需要的睡眠时间(s)。
    备机RTO时间备机当前的日志流控时间(s)。
    备机redo进度、和主机的差距备机redo位置和主机flush磁盘的位置的差距(Byte)。
    待落盘的数据量主机上尚未写入磁盘的XLOG数据量(Byte)。
    未落盘脏页数量主机上尚未写入磁盘的脏页数量。
    候选槽位数量主机上可用的候选槽位数量。
    复制槽保留的WAL日志大小主机DN上复制槽中保留的WAL日志的大小(Byte)。
    XLOG生成速率主机上平均每秒产生的XLOG大小(Byte/s)。
    参数名称参数解释
    动态内存使用上限当前实例上可以使用的动态内存的上限(MB)。
    已使用的动态内存当前实例上已使用的动态内存(MB)。
    动态内存使用率当前实例上动态内存的使用率(%)。
    XLOG数量当前实例上产生的XLOG文件数量。
    已使用的共享内存当前实例上已使用的共享内存大小(MB)。
    进程占用内存上限当前实例上进程可占用的内存上限(MB)。
    进程已使用内存当前实例上进程已使用的内存大小(MB)。
    进程内存使用率当前实例上进程内存的使用率(%)。
    已使用的其他内存当前实例上已经使用的其它内存(MB)。
    读物理文件I/O次数每秒当前实例上数据库每秒读物理文件的I/O次数。
    写物理文件I/O次数每秒当前实例上数据库每秒写物理文件的I/O次数。
    磁盘读取block每秒当前实例上所有数据库在执行会话过程中,平均每秒发生的磁盘读取。
    缓存读取block每秒当前实例上所有数据库在执行会话过程中,平均每秒发生的缓存读取。
    系统库大小占用当前实例上系统数据库大小的占用(Byte)。
    用户库大小占用当前实例上用户数据库大小的占用(Byte)。
    缓存命中率当前实例上用户数据库中的BUFFER命中率(%)。
    线程池使用率当前实例上线程池中的线程使用率(%)。
    数据页面损坏数量当前实例上数据页面损坏且未修复的数量。当实例内核为V500R002C10及以上版本时显示。
    undo页面使用数量当前实例上Undo使用的页面数。仅主备版实例显示。
    undo页面生成速率当前实例上Undo使用的页面生成速率。仅主备版实例显示。
    参数名称参数解释
    实例状态当前实例的状态,值为1表示正常状态,值为0表示不可用状态。
    DN主备状态当前实例上每个DN的主备状态。- 值为1表示主DN。
    • 值为0表示备DN。
    • 值为-1代表当前DN的状态异常。 | | CN进程启动时刻 | 当前实例上CN进程启动的时刻。 | | DN进程启动时刻 | 当前实例上DN进程启动的时刻。 | | GTM进程启动时刻 | 当前实例上GTM进程启动的时刻。 | | CMS进程启动时刻 | 当前实例上CMS进程启动的时刻。 | | ETCD进程启动时刻 | 当前实例上ETCD进程启动的时刻。 | | CMA进程启动时刻 | 当前实例上CMA进程启动的时刻。 | | GTM进程内存占用 | 当前实例上GTM进程内存占用大小(Byte)。 | | ETCD进程内存占用 | 当前实例上ETCD进程内存占用大小(Byte)。 | | CMS进程内存占用 | 当前实例上CMS进程内存占用大小(Byte)。 | | CMA进程内存占用 | 当前实例上CMA进程内存占用大小(Byte)。 | | CN临时目录大小 | 当时实例上CN数据目录下临时目录大小(MB)。 | | DN临时目录大小 | 当时实例上DN数据目录下临时目录大小(MB)。 | | ETCD数据目录大小 | 当时实例上ETCD数据目录大小(MB)。 | | OM模块ERROR日志数 | 当前实例上GAUSSLOG/om目录下ERROR日志数量。CM模块ERROR日志数当前实例上GAUSSLOG/om目录下ERROR日志数量。 | | CM模块ERROR日志数 | 当前实例上GAUSSLOG/cm目录下ERROR日志数量。 | | 内核ERROR日志数 | 当前实例上$GAUSSLOG/pg_log目录下ERROR日志数量。 | | om_agent进程状态 | 当前实例上OM_Agent进程的状态,0为正常(进程存在),1为异常(进程不存在)。 | | om_monitor进程状态 | 当前实例上OM_Monitor进程的状态,0为正常(进程存在),1为异常(进程不存在)。 |
    参数名称参数解释
    dbmanager进程状态当前实例上是否存在dbmanager进程,0为正常(进程存在),1为异常(进程不存在)。
    watchdog进程状态当前实例上是否存在watchdog进程,0为正常(进程存在),1为异常(进程不存在)。
    agent_monitor进程状态当前实例上是否存在agent_monitor进程,0为正常(进程存在),1为异常(进程不存在)。
    参数名称参数解释
    灾备实例分片日志差距该值用于统计流式容灾特性开启情况下,灾备集群中各个分片相对于生产集群的日志差距(Byte)。
    灾备实例分片日志回放速率该值用于统计流式容灾特性开启情况下,灾备集群中各个分片日志回放速率(Byte/s)。
    灾备实例分片待回放日志量该值用于统计流式容灾特性开启情况下,灾备集群中各个分片待回放日志量(Byte)。
    灾备实例分片日志落盘速率该值用于统计流式容灾特性开启情况下,灾备集群中各个分片日志落盘速率(Byte/s)。
    分片RPO该值用于统计流式容灾特性开启情况下,各个分片的实时RPO(s)。
    分片RTO该值用于统计流式容灾特性开启情况下,各个分片的实时RTO(s)。

监控数据保留时长为固定30天。

更多详情请参考GaussDB 文档中心:doc.hcs.huawei.com/db/zh-cn/ga…