云数据库 GaussDB备机redo进度超阈值怎么办?

75 阅读2分钟

告警解释

=======

系统每一分钟检查云数据库 GaussDB的备机redo进度,当备机redo进度超过设置的阈值1GB(默认)时,产生此告警。

对系统的影响

备机redo进度超过阈值,可能触发主备切换,导致分片恢复时间长,影响业务。

可能原因

  • 主备DN之间网络时延比较高,导致Redo日志同步出现延迟,主备差异大。
  • 备DN日志回放速度慢,导致大量日志已经发送到备机,但是却没有被回放完。
  • 阈值条件设置不合理。

处理步骤

  1. 使用浏览器,通过地址“https://

    ManageOne运维面主页的访问地址

    :31943”,登录ManageOne运维面,或通过地址“https://

    ManageOne主门户的访问地址

    ”,登录ManageOne主门户,选择“运维中心(OC)”,进入ManageOne运维面。

    • 密码方式:输入账号和密码。
      • 默认账号:bss_admin

        对于从8.2.0或更早版本升级上来的ManageOne,默认账号为admin。

      • 默认密码:参见《华为云Stack 8.3.1 账户一览表》的“A类(Portal)”页签中,“ManageOne运维面”账户对应的默认密码。

    • USB Key方式:插入已预置用户证书的USB Key,选择设备和用户证书,并输入PIN码。
  2. 在主菜单选择“告警 > 告警管理 > 当前告警”中查看告警信息返回的监控指标阈值以及当前采集的指标值。

  3. 检查监控指标的阈值设置。

    1. 主菜单选择“监控 > 监控配置 ”,进入监控配置页面。

    2. 在左侧导航栏选择“阈值告警规则”。

    3. 在“阈值告警规则”页面,选择云数据库 GaussDB服务,找到对应监控指标的阈值。

    4. 如果指标策略类型为预置,执行5

    5. 自定义创建的监控指标,单击对应监控指标操作列的“修改”,查看阈值条件设置,可以联系技术支持确认配置是否合理。

    • 是:执行5
    • 否:执行4

    NOTICE:

    预置的监控指标告警阈值不支持修改,只支持查看。

  4. 修改指标阈值策略。

    1. 根据实际指标数据修改阈值。

    2. 等待5分钟,在主菜单选择“告警> 告警管理 > 当前告警”,检查告警是否清除。

    • 是:处理完毕。
    • 否:执行5
  5. 参考ALM-5101160 Ops巡检-备机redo进度,和主机的差距异常处理。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。

更多详情请参考GaussDB 文档中心:doc.hcs.huawei.com/db/zh-cn/ga…