告警解释
=======
系统每一分钟检查云数据库 GaussDB实例的磁盘容量使用率,当连续三次监测到磁盘容量使用率超过设置的阈值80%(默认)时,产生此告警。
对系统的影响
GaussDB实例磁盘容量不足,导致实例只读不能新增数据。
可能原因
- 业务数据量过大。
- 被其他进程产生文件数据占用,可能包括:
- 管控或内核版本升级,占用系统磁盘资源增加。
- 现网操作生成的临时文件没有及时清理,不断累积。
- 管控或操作系统相关的日志没有及时回收。
处理步骤
-
登录运营面,查看发生告警时间段近3小时内的关键指标情况。
-
使用浏览器,通过账号地址“https://域名”登录运营面。
-
在左上角菜单服务列表找到云数据库GaussDB,单击进入实例列表页面。
-
根据获取的实例ID和节点ID,查看对应实例、对应节点。
-
单击发生告警实例的“查看监控指标”按钮,查看实例指标监控。
-
在实例指标监控页面的右上角搜索框中输入指标的关键字“磁盘”,进行模糊查询。
-
查看指标近期趋势
- 数据趋势平稳符合预期,结合业务情况判断是否需要扩容磁盘。
- 如不符合预期,需要继续定位。
-
-
参考登录实例节点,登录发生告警的实例。
-
执行以下命令,查看当前磁盘使用率较高的磁盘,确认当前使用率。
df -h
对于DN可能存在风险的目录包括/home/Ruby/log、/home/Ruby、/home/Mike、$PGHOST、/usr/local。
/home/Ruby/log下主要存放系统日志、管控日志以及om_agent日志,正常情况下这些日志均有自动清理和回收机制,如果发现某类日志数量明显增加,则可能存在风险,需要手动清理(例如om_agent默认保留10个日志文件、管控日志默认保留20个等)。
/home/Ruby和/home/Mike目录下主要会存放一些运维操作的临时文件,这些文件一般情况下在运维操作结束后就可以清理,可能存在未及时清理或者临时文件生成过大的情况,需要及时处理。
$PGHOST目录下主要存放数据库运行相关的临时文件,如果存在较大文件需要确认文件用途后,采取清理动作。
DN上的/usr/local目录使用系统磁盘,可能有一些运维操作也会在此目录下落盘,需要及时清理。
-
如果以上操作均无法解决此告警,联系技术支持进行处理。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
不涉及。
更多详情请参考GaussDB 文档中心:doc.hcs.huawei.com/db/zh-cn/ga…