GaussDB-巡检任务列表
操作场景
在日常运维过程中,需要实时或者定期查看系统中实例的运行状态,通过日常巡检能够帮助运维人员快速了解实例的健康状况。
在巡检任务列表可以查看、修改、创建、删除巡检任务。
巡检策略支持单次巡检(立即巡检、指定时间巡检)、周期巡检(可以按时间间隔、天、周、月进行设计巡检周期),巡检数据的时间范围可以通过巡检方式指定。
前提条件
- 数据库实例已被DBMind纳管。
-
巡检的实例需满足如下版本要求:
- 主备版实例:无版本限制。
- 分布式实例:DBMind实例版本大于等于8.100。
操作步骤
-
单击“监控巡检 > 日常巡检”,进入“巡检任务列表”页面。
可按巡检任务名称或实例名称进行筛选。
图1 巡检列表
参数名称 参数解释 巡检任务名称/ID 巡检任务名称及任务ID。 实例名称 执行巡检任务的实例名称。 巡检策略 新建巡检任务时所选的巡检策略。显示单次巡检或周期巡检。 巡检方式 新建巡检任务时所选的巡检方式。显示实时巡检、日检、周检或月检。 巡检状态 - 待执行:巡检任务还未执行。 -
已完成:巡检任务已执行完成。 | | 最近执行时间 | 当前巡检任务最近一次执行时间。 | | 下次执行时间 | 当前巡检任务下一次执行时间。 | | 创建时间 | 当前巡检任务创建时间。 | | 操作 | - 查看巡检结果:跳转到巡检结果列表。
-
编辑:跳转到巡检修改页,修改巡检任务配置。
-
更多:
- 立即执行:立即执行当前巡检任务。
- 删除:删除当前巡检任务。巡检任务删除后不可恢复,请谨慎操作。 |
-
-
巡检任务创建。单击“新建巡检任务”,填写并选择需巡检的信息。
图2 新建巡检
参数名称 参数解释 任务名称 任务名称长度为4位到64位,必须以字母开头,可以包含字母、数字、中划线或下划线,不能包含其他特殊字符。 选择实例 参与巡检的实例。数据库实例已被DBMind纳管,可多选。 巡检方式 - 实时巡检:取当前时间往前推6小时到当前时间为巡检时间。 -
日检:取昨天0点到24点为巡检时间。
-
周检:取前七天为巡检时间。
-
月检:取前一个月为巡检时间。周检和月检依赖日检。当连续日检数量不足7天时,无法周检;当连续日检数量不足14天时,无法月检。 | | 巡检策略/巡检时间 | - 单次巡检:固定时间点单次巡检环境状态,可配置如下巡检时间:
- 立即执行:提交后立即进行巡检。
- 稍后执行:选择巡检执行时间。
-
周期巡检:固定时间点周期性的重复巡检环境状态,可配置如下周期间隔方式:
- 按时间间隔执行:设置巡检间隔时间,可设置范围120~720分钟。
- 按天执行:选择巡检任务每天开始的时间。
- 按周执行:选择巡检任务每周开始的具体时间。
- 按月执行:选择巡检任务每月开始的具体时间。 | | 巡检场景 | 自定义创建巡检配置项的选择,简化任务创建操作。可选择:- 初始场景:包含长事务、数据库Top Query、CPU使用率、系统磁盘占用率、内存使用率、网络状况巡检项。
-
健康检查:包含组件异常、数据库大小、数据库执行语句、数据库死锁、长事务、数据库Top Query、CPU使用率、系统磁盘占用率、内存使用率、磁盘IO使用率、网络状况巡检项。
-
深度检查:包含所有巡检项。
-
自定义检查:自定义选择需要的巡检项,单击“保存模板”,可保存为巡检模板。保存后可单击巡检场景中的“自定义检查”,在巡检模板下拉框中选择模板,方便快速选择巡检项。各个巡检项的具体说明,详见表3。 | | 巡检配置项 | 选择巡检任务需要执行的配置项。包括以下巡检类别:诊断优化、实例状态、数据库资源、数据库性能、系统资源。 |
巡检项 所属类别 说明 组件异常 实例状态 检查各节点DN状态信息。如果状态非正常,则巡检不通过。 Buffer命中率 数据库性能 检查各数据库Buffer命中率。如果Buffer命中率低于90%,则巡检不通过。 用户登入登出次数 数据库性能 检查各节点用户登录登出次数。计算1分钟内平均每秒用户登录与登出次数的比率。 活跃Session率 数据库性能 检查各节点活跃Session率。如果活跃Session率低于80%,则巡检不通过。 线程池占用率 数据库性能 检查各节点线程池占用率。如果线程池占用率超过90%,则巡检不通过。如果线程池占用率持续上升,则巡检不通过。 数据库时延 数据库性能 检查各节点数据库时延。如果80%语句响应时间或95%语句响应时间持续上升,则巡检不通过。 数据库事务 数据库性能 检查各数据库事务信息,获取业务中提交和回滚的次数。 数据库临时文件大小 数据库性能 检查并获取各数据库临时文件大小。 数据库执行语句 数据库性能 检查各节点数据库执行语句。统计数据库中SELECT、UPDATE、INSERT、DELETE的执行次数。 数据库死锁 数据库性能 检查各数据库死锁情况。当死锁数不为0时,表示数据库出现死锁。 数据库TPS性能 数据库性能 检查各节点数据库TPS性能。获取数据库的QPS和TPS信息。 数据库Top Query 数据库性能 查询调用次数最多的Top10个查询语句。 长事务 数据库性能 查询超过12小时未结束的活跃事务。若存在,则巡检不通过。 xlog堆积 数据库性能 检查各节点xlog堆积情况。获取xlog目录下的文件数量,当数量超过3000时,则巡检不通过。 oldestxmin长时间未推进 数据库性能 检查各节点oldestxmin推进情况。oldestxmin推进值表示系统中最旧的活动事务的事务ID,当一个事务需要读取数据库中的数据时要等待的最旧事务的事务ID。因此oldestxmin长时间未推进会导致脏数据无法回收,影响存储空间和查询性能。若oldestxmin超过12小时未出现变化,则巡检不通过。 日志异常检查 数据库性能 检查各节点日志异常情况。统计每种日志错误出现的次数并进行相加,如果出现日志异常会返回日志异常的出现次数,则巡检不通过。该巡检项详情页提供日志下载功能,单击“下载日志”可以下载数据库日志。 数据库目录占用率 数据库资源 检查各节点数据库数据目录占用率。如果数据库数据目录所在磁盘占用率超过80%,则巡检不通过。如果数据库数据目录所在磁盘占用率持续上升,则巡检不通过。如果未来24小时数据库数据目录所在磁盘占用率有超过80%的趋势,则巡检不通过。检查数据库数据目录所在磁盘文件系统类型,如果不是xfs、ext3、ext4之一,则巡检不通过。 数据库日志目录占用率 数据库资源 检查各节点数据库日志目录占用率。如果数据库日志目录所在磁盘占用率超阈值的80%,则巡检不通过。如果数据库日志目录所在磁盘占用率持续上升,则巡检不通过。如果未来24小时数据库日志目录所在磁盘占用率有超过80%的趋势,则巡检不通过。检查数据库日志目录所在磁盘文件系统类型,如果不是xfs、ext3、ext4之一,则巡检不通过。 数据库大小 数据库资源 检查各数据库大小并进行记录。 CPU使用率 系统资源 检查各节点CPU使用率。如果CPU用户使用率超过70%或CPU等待I/O操作时间占用率超过30%,则巡检不通过。如果CPU用户使用率或CPU等待I/O操作时间占用率持续上升,则巡检不通过。如果未来24小时CPU用户使用率有超过70%的趋势或CPU等待I/O操作时间占用率有超过30%的趋势,则巡检不通过。 系统磁盘占用率 系统资源 检查各节点系统磁盘占用率。如果系统磁盘占用率超过80%,则巡检不通过。 内存使用率 系统资源 检查各节点内存使用率。如果内存使用率超过70%,则巡检不通过。如果内存使用率持续上升,则巡检不通过。如果未来24小时内存使用率有超过80%的趋势,则巡检不通过。 磁盘IO使用率 系统资源 检查各节点磁盘IO使用率。如果磁盘IO使用率超过80%,则巡检不通过。 网络状况 系统资源 检查各节点网络状况。如果丢包率超过5%时,则巡检不通过。 core dump 诊断优化 检查各节点是否存在SQL PATCH引起的core dump。core dump是指在程序运行时发生错误或崩溃时,操作系统将程序的内存状态保存到磁盘上的一种文件。这个文件包含了程序崩溃时的内存映像,可以用于调试程序并找出崩溃的原因。若存在core dump,则巡检不通过。 动态内存 诊断优化 检查各节点动态内存的大小。如果动态使用内存与最大动态内存的比例超过80%,则巡检不通过。如果动态共享内存与最大动态内存比例超过80%,则巡检不通过。 程序内存 诊断优化 检查各节点程序内存的大小。如果程序使用内存与最大程序内存的比例超过80%,则巡检不通过。 其他内存 诊断优化 检查各节点其他内存的大小。如果其他内存大小超过20G,则巡检不通过。如果其他内存大小持续上升,则巡检不通过。 GUC参数 诊断优化 检查各节点最大程序内存、共享内存、工作内存的值,并与DBMind根据负载推算出的最优参数进行对比,当存在差异时,则巡检不通过。 -
-
单击“提交”,按所选的巡检策略开始执行巡检。
-
巡检任务删除。
- 单个删除。选择要删除的巡检任务,单击“更多 > 删除”。
- 批量删除。勾选框选择多个巡检任务,单击上方“批量删除”按钮。
更多详情请参考GaussDB 文档中心:doc.hcs.huawei.com/db/zh-cn/ga…