GaussDB-巡检任务列表

227 阅读10分钟

GaussDB-巡检任务列表

操作场景

在日常运维过程中,需要实时或者定期查看系统中实例的运行状态,通过日常巡检能够帮助运维人员快速了解实例的健康状况。

在巡检任务列表可以查看、修改、创建、删除巡检任务。

巡检策略支持单次巡检(立即巡检、指定时间巡检)、周期巡检(可以按时间间隔、天、周、月进行设计巡检周期),巡检数据的时间范围可以通过巡检方式指定。

前提条件
  • 数据库实例已被DBMind纳管。
  • 巡检的实例需满足如下版本要求:

    • 主备版实例:无版本限制。
    • 分布式实例:DBMind实例版本大于等于8.100。
操作步骤
  1. 登录云数据库GaussDB管理平台(TPOPS)

  2. 单击“监控巡检 > 日常巡检”,进入“巡检任务列表”页面。

    可按巡检任务名称或实例名称进行筛选。

    图1 巡检列表

    参数名称参数解释
    巡检任务名称/ID巡检任务名称及任务ID。
    实例名称执行巡检任务的实例名称。
    巡检策略新建巡检任务时所选的巡检策略。显示单次巡检或周期巡检。
    巡检方式新建巡检任务时所选的巡检方式。显示实时巡检、日检、周检或月检。
    巡检状态- 待执行:巡检任务还未执行。
    • 已完成:巡检任务已执行完成。 | | 最近执行时间 | 当前巡检任务最近一次执行时间。 | | 下次执行时间 | 当前巡检任务下一次执行时间。 | | 创建时间 | 当前巡检任务创建时间。 | | 操作 | - 查看巡检结果:跳转到巡检结果列表。

    • 编辑:跳转到巡检修改页,修改巡检任务配置。

    • 更多:

      • 立即执行:立即执行当前巡检任务。
      • 删除:删除当前巡检任务。巡检任务删除后不可恢复,请谨慎操作。 |
  3. 巡检任务创建。单击“新建巡检任务”,填写并选择需巡检的信息。

    图2 新建巡检

    参数名称参数解释
    任务名称任务名称长度为4位到64位,必须以字母开头,可以包含字母、数字、中划线或下划线,不能包含其他特殊字符。
    选择实例参与巡检的实例。数据库实例已被DBMind纳管,可多选。
    巡检方式- 实时巡检:取当前时间往前推6小时到当前时间为巡检时间。
    • 日检:取昨天0点到24点为巡检时间。

    • 周检:取前七天为巡检时间。

    • 月检:取前一个月为巡检时间。周检和月检依赖日检。当连续日检数量不足7天时,无法周检;当连续日检数量不足14天时,无法月检。 | | 巡检策略/巡检时间 | - 单次巡检:固定时间点单次巡检环境状态,可配置如下巡检时间:

      • 立即执行:提交后立即进行巡检。
      • 稍后执行:选择巡检执行时间。
    • 周期巡检:固定时间点周期性的重复巡检环境状态,可配置如下周期间隔方式:

      • 按时间间隔执行:设置巡检间隔时间,可设置范围120~720分钟。
      • 按天执行:选择巡检任务每天开始的时间。
      • 按周执行:选择巡检任务每周开始的具体时间。
      • 按月执行:选择巡检任务每月开始的具体时间。 | | 巡检场景 | 自定义创建巡检配置项的选择,简化任务创建操作。可选择:- 初始场景:包含长事务、数据库Top Query、CPU使用率、系统磁盘占用率、内存使用率、网络状况巡检项。
    • 健康检查:包含组件异常、数据库大小、数据库执行语句、数据库死锁、长事务、数据库Top Query、CPU使用率、系统磁盘占用率、内存使用率、磁盘IO使用率、网络状况巡检项。

    • 深度检查:包含所有巡检项。

    • 自定义检查:自定义选择需要的巡检项,单击“保存模板”,可保存为巡检模板。保存后可单击巡检场景中的“自定义检查”,在巡检模板下拉框中选择模板,方便快速选择巡检项。各个巡检项的具体说明,详见表3。 | | 巡检配置项 | 选择巡检任务需要执行的配置项。包括以下巡检类别:诊断优化、实例状态、数据库资源、数据库性能、系统资源。 |

    巡检项所属类别说明
    组件异常实例状态检查各节点DN状态信息。如果状态非正常,则巡检不通过。
    Buffer命中率数据库性能检查各数据库Buffer命中率。如果Buffer命中率低于90%,则巡检不通过。
    用户登入登出次数数据库性能检查各节点用户登录登出次数。计算1分钟内平均每秒用户登录与登出次数的比率。
    活跃Session率数据库性能检查各节点活跃Session率。如果活跃Session率低于80%,则巡检不通过。
    线程池占用率数据库性能检查各节点线程池占用率。如果线程池占用率超过90%,则巡检不通过。如果线程池占用率持续上升,则巡检不通过。
    数据库时延数据库性能检查各节点数据库时延。如果80%语句响应时间或95%语句响应时间持续上升,则巡检不通过。
    数据库事务数据库性能检查各数据库事务信息,获取业务中提交和回滚的次数。
    数据库临时文件大小数据库性能检查并获取各数据库临时文件大小。
    数据库执行语句数据库性能检查各节点数据库执行语句。统计数据库中SELECT、UPDATE、INSERT、DELETE的执行次数。
    数据库死锁数据库性能检查各数据库死锁情况。当死锁数不为0时,表示数据库出现死锁。
    数据库TPS性能数据库性能检查各节点数据库TPS性能。获取数据库的QPS和TPS信息。
    数据库Top Query数据库性能查询调用次数最多的Top10个查询语句。
    长事务数据库性能查询超过12小时未结束的活跃事务。若存在,则巡检不通过。
    xlog堆积数据库性能检查各节点xlog堆积情况。获取xlog目录下的文件数量,当数量超过3000时,则巡检不通过。
    oldestxmin长时间未推进数据库性能检查各节点oldestxmin推进情况。oldestxmin推进值表示系统中最旧的活动事务的事务ID,当一个事务需要读取数据库中的数据时要等待的最旧事务的事务ID。因此oldestxmin长时间未推进会导致脏数据无法回收,影响存储空间和查询性能。若oldestxmin超过12小时未出现变化,则巡检不通过。
    日志异常检查数据库性能检查各节点日志异常情况。统计每种日志错误出现的次数并进行相加,如果出现日志异常会返回日志异常的出现次数,则巡检不通过。该巡检项详情页提供日志下载功能,单击“下载日志”可以下载数据库日志。
    数据库目录占用率数据库资源检查各节点数据库数据目录占用率。如果数据库数据目录所在磁盘占用率超过80%,则巡检不通过。如果数据库数据目录所在磁盘占用率持续上升,则巡检不通过。如果未来24小时数据库数据目录所在磁盘占用率有超过80%的趋势,则巡检不通过。检查数据库数据目录所在磁盘文件系统类型,如果不是xfs、ext3、ext4之一,则巡检不通过。
    数据库日志目录占用率数据库资源检查各节点数据库日志目录占用率。如果数据库日志目录所在磁盘占用率超阈值的80%,则巡检不通过。如果数据库日志目录所在磁盘占用率持续上升,则巡检不通过。如果未来24小时数据库日志目录所在磁盘占用率有超过80%的趋势,则巡检不通过。检查数据库日志目录所在磁盘文件系统类型,如果不是xfs、ext3、ext4之一,则巡检不通过。
    数据库大小数据库资源检查各数据库大小并进行记录。
    CPU使用率系统资源检查各节点CPU使用率。如果CPU用户使用率超过70%或CPU等待I/O操作时间占用率超过30%,则巡检不通过。如果CPU用户使用率或CPU等待I/O操作时间占用率持续上升,则巡检不通过。如果未来24小时CPU用户使用率有超过70%的趋势或CPU等待I/O操作时间占用率有超过30%的趋势,则巡检不通过。
    系统磁盘占用率系统资源检查各节点系统磁盘占用率。如果系统磁盘占用率超过80%,则巡检不通过。
    内存使用率系统资源检查各节点内存使用率。如果内存使用率超过70%,则巡检不通过。如果内存使用率持续上升,则巡检不通过。如果未来24小时内存使用率有超过80%的趋势,则巡检不通过。
    磁盘IO使用率系统资源检查各节点磁盘IO使用率。如果磁盘IO使用率超过80%,则巡检不通过。
    网络状况系统资源检查各节点网络状况。如果丢包率超过5%时,则巡检不通过。
    core dump诊断优化检查各节点是否存在SQL PATCH引起的core dump。core dump是指在程序运行时发生错误或崩溃时,操作系统将程序的内存状态保存到磁盘上的一种文件。这个文件包含了程序崩溃时的内存映像,可以用于调试程序并找出崩溃的原因。若存在core dump,则巡检不通过。
    动态内存诊断优化检查各节点动态内存的大小。如果动态使用内存与最大动态内存的比例超过80%,则巡检不通过。如果动态共享内存与最大动态内存比例超过80%,则巡检不通过。
    程序内存诊断优化检查各节点程序内存的大小。如果程序使用内存与最大程序内存的比例超过80%,则巡检不通过。
    其他内存诊断优化检查各节点其他内存的大小。如果其他内存大小超过20G,则巡检不通过。如果其他内存大小持续上升,则巡检不通过。
    GUC参数诊断优化检查各节点最大程序内存、共享内存、工作内存的值,并与DBMind根据负载推算出的最优参数进行对比,当存在差异时,则巡检不通过。
  4. 单击“提交”,按所选的巡检策略开始执行巡检。

  5. 巡检任务删除。

    • 单个删除。选择要删除的巡检任务,单击“更多 > 删除”。
    • 批量删除。勾选框选择多个巡检任务,单击上方“批量删除”按钮。

更多详情请参考GaussDB 文档中心:doc.hcs.huawei.com/db/zh-cn/ga…