GaussDB-性能监控

100 阅读5分钟

GaussDB-异常诊断

操作场景

当数据库实例发生异常时,可以通过异常诊断功能来诊断触发异常的根因。

异常诊断功能目前支持实例异常诊断、指标异常诊断、健康报告展示、资源监控展示、SQL分析展示。

前提条件
  • 需要获取异常诊断权限。
  • 数据库实例已被DBMind纳管。
约束限制
  • 实例异常诊断功能目前仅支持CN、DN两种组件的异常诊断,其他组件暂不支持。
  • 实例异常诊断有约30s延迟,指标异常诊断有约180s延迟。
  • 指标异常诊断目前支持磁盘、内存、CPU、线程池的异常诊断。不支持分布式实例的指标异常诊断。
  • 指标异常诊断中的潜在慢盘监测不支持关联性分析和诊断功能。
操作步骤
  1. 登录云数据库GaussDB管理平台(TPOPS)

  2. 单击具体实例名称,进入“实例管理”详情页。

  3. 单击“诊断优化 > 异常诊断”,显示“异常诊断”页面。

  4. 异常诊断功能目前支持实例异常诊断、指标异常诊断、健康报告、性能监控、SQL分析。

    图1 查询异常诊断

  5. 实例异常诊断。

    实例异常诊断展示当前实例的异常组件信息,用户还可以单击“详情”诊断出触发异常的根因。

    参数名称参数解释
    组件名实例组件名称,当前支持CN、DN两种组件。
    异常数量组件名对应异常节点的数量,由于底层为定时任务进行节点扫描,因此并不能第一时间发现异常,存在一定的延迟。
    操作当组件发生异常时,可以通过查看详情,来进行异常诊断。若实例当前组件没有异常,则不支持查看详情。

    图2 实例异常诊断详情

    参数名称参数解释
    诊断模型针对当前异常所使用的诊断模型,当前支持logical、tree两种模型。- logical:传统诊断模型,基于逻辑判断,默认为logical。
    • tree:AI诊断模型,基于AI训练之后的模型,得出的结论更发散。 | | 节点名称 | 发生异常的节点名称。 | | 时间间隔 | 诊断的时间间隔,支持10分钟、30分钟、60分钟。 | | 时间段 | 基于时间间隔,计算出时间段,用户可以选择查看该时间段的异常诊断结果。 | | 可视化结果 | 红色点表示异常,绿色点表示正常。单击异常红色点,则展示诊断结论。 |
  6. 指标异常诊断。

    指标异常诊断展示当前实例的异常指标信息,用户还可以单击“详情”,针对异常指标进行诊断和关联性分析操作,其中潜在慢盘监测没有诊断和关联性分析操作。

    参数名称参数解释
    指标项指标名称,当前支持磁盘、内存、CPU、线程池四种指标。
    异常数量当前指标项被检测出的异常数量。
    操作当指标发生异常时,可以通过查看详情,来进行诊断和关联性分析,其中潜在慢盘监测没有诊断和关联性分析操作,只能查看异常的节点、时间段和过滤信息。若当前指标没有异常,则不支持查看详情。

    图3 指标异常诊断详情

    图4 指标异常诊断详情-潜在慢盘监测

    参数名称参数解释
    检测器名称当前指标项所包含的检测器名称。不同检查器均可以检测出异常。这里选择具体检测器,则表示诊断当前检测器检测出的异常。当前支持的检测器:- high_thread_pool_rate_detector
    • high_cpu_usage_detector
    • high_io_delay_detector
    • high_disk_usage_detector
    • high_mem_usage_detector
    • slow_disk_detector | | 节点名称 | 发生异常的节点名称。 | | 异常时间段 | 指标发生异常时的时间段,此处会展示所有的异常时间段,用户可以自行选择。 | | 关联性分析 | 单击关联性分析,则表示对所选异常时间段的异常进行关联性检索,会检索出10项关联性最强的指标项,供用户参考分析。潜在慢盘监测没有关联性分析功能。 |

    图5 指标异常关联性分析详细信息

  7. 指标异常检测器。

    指标异常诊断支持配置检测器,不同检测器对应检测不同指标,单击“设置”,可以进行启停和修改操作。

    图6 指标异常诊断设置项

    参数名称参数解释
    检测器名称当前内置的检测器名称。不同检查器均可以检测出异常,当前内置6种检测器。
    状态检测器状态。
    操作支持启用、停用检测器。支持修改检测器配置。

    图7 指标异常诊断检测器配置

    图8 指标异常诊断检测器配置-慢盘诊断器

    参数名称参数解释
    检测区间检测器最大检测区间。慢盘诊断器不需要设置检测区间。
    检测器阈值上限阈值上限,当指标数值超过当前阈值时,则触发异常。
    检测器超限值比例若检测器存在当前参数,则表示在检测区间的时间范围之内,指标数值超过检测器阈值上限的比例超过当前配置之后,则触发异常。
    备注当前检测器的备注信息。
  8. 健康报告。

    单击“更多”,可以跳转至巡检列表页面。

    在异常诊断页面,此功能仅用于展示当前实例在一定时间段内的巡检结果,用于用户参考。

  9. 性能监控。

    单击“更多”,可以跳转至性能监控页面。

    在异常诊断页面,此功能仅用于展示当前实例在一定时间段内的资源使用情况,用于用户参考。

  10. SQL分析。

    单击“查看”,可以跳转至SQL诊断页面。

    在异常诊断页面,此功能仅用于展示当前实例在一定时间段内的SQL情况,用于用户参考。

更多详情请参考GaussDB 文档中心:doc.hcs.huawei.com/db/zh-cn/ga…