⛵IBMC之——故障诊断⛵

117 阅读2分钟

小知识,大挑战!本文正在参与“程序员必备小知识”创作活动。

iBMC 集成了 MCE 故障处理系统,该系统建立了一套通用的以 iBMC 为管理中心的带 外的 x86 系统硬件故障处理系统,实现对硬件故障进行数据收集、记录、诊断、告 警、日志导出等功能。告警事件在 WEB 界面,通过部件健康树非常清晰的展示每个部 件的故障信息。

故障处理系统的使用场景:

  1. 数据中心服务器运行过程中突然宕机,系统黑屏/无响应,由于 OS 不支持等原因 没有记录下产生的 MCE 码,只有 iBMC 记录到 CAT ERROR 事件发生,无法获取 更进一步的信息判断问题所在。

  2. 服务器长时间运行,整体上虽然未发生崩溃,但内部其实已经存在的大量的可恢 复/纠正的故障(如 ECC 等)。虽然这些故障暂时不影响业务,但也需要提前发现 和处理,避免发生灾难性故障。

  3. 硬件故障出现概率低,难复现,主要靠人工经验判断,多次插拔/更换,效率低, 对客户的影响大。

  4. 故障发生后没有完整的故障记录。

故障处理系统的主要技术点:

实现了全方位自动的故障数据的抓取 通过带内带外不同的故障数据收集技术的整合与自动切换。实现一个以 iBMC 为中心的完整可持续发展的带外故障处理系统,把所有的故障数据汇聚到 iBMC,由 iBMC 在带外做更进一步的记录、故障分析、 告警、日志导出等功能,克服了 OS 作为故障处理中心的能力不足、不可控、影响系统性能等难题;故障支持定位到具体部件丝印。

求点赞呀

image.png