🚢IBMC之——故障检测🚢

439 阅读1分钟

小知识,大挑战!本文正在参与“程序员必备小知识”创作活动。

故障诊断与管理(FDM)是 iBMC 面向华为服务器提供一系列诊断能力和工具,包括 故障检测、诊断、上报以及诊断辅助功能。故障检测 iBMC 对服务器进行全面的监控,并且提供了可靠的故障检测和故障预测机制。能检测 到的故障包括(不同产品支持情况存在差异):

  1. CPU 硬件故障(CAT ERROR、自检失败、配置错误)

2.超温告警(进风口、CPU、内存、系统电源、硬盘、RAID 卡)

3.主板各电源(含电池)和板卡电源故障,风扇故障

4.系统电源故障(AC/DC 输入丢失、高温、电源风扇故障、过压、过流)

5.总线故障(I2C、IPMB、QPI/UPI),DDR3/DDR4 内存故障(可纠正 ECC 错误超门限、不可纠正 ECC 错误、高温、配 置和初始化错误、CE 溢出监控)

6.存储故障,包括 RAID 控制器故障(内部故障、内存 UCE 计数非 0、内存 ECC 计 数超门限、NVRAM 错误计数非 0、BMC 访问失败)、硬盘故障(故障、预故障、 重构失败、盘在位但 RAID 卡不能识别、SSD 剩余寿命监控)、逻辑盘异常 (Offline、Degraded)、BBU 电压低或故障、链路误码(RAID 扣卡、硬盘背板 expander 链路误码、SAS 盘和 SATA 盘内部故障的 smart 信息收集)  系统宕机故障

求点赞呀

image.png