FEMA简介

302 阅读2分钟

「这是我参与2022首次更文挑战的第30天,活动详情查看:2022首次更文挑战」。

高可用说起来简单,实际非常复杂,因为从软件到硬件的各个环节都可能影响到系统的可用性,即使我们足够小心,依然不能将隐患降低为0。因为我们在进行架构设计的时候必须全面分析系统的可用性。那么怎么做到全面性呢?

FMEA (failure mode and effects analysis),故障模式与影响分析,也成为失效模式与后果分析等。简单来说,就是将系统潜在的故障模式加以分析,然后按照严重程度进行分门别类,以确定失效对于系统的最终影响。

FMEA应用广泛,它是一套分析和思考方法,不是工具。FMEA的分析方法是:

  • 给出设计架构图
  • 假设架构中的某个节点发生故障
  • 分析故障对系统的影响
  • 根据分析结果,判断架构是否需要优化

除了第一步的架构图,后续最重要的就是一个潜在故障列表。这个列表包含以下几个部分:

  1. 功能点,这个功能点要站在用户的角度
  2. 故障模式,故障点和故障形式,描述的现象,要尽可能精确且量化
  3. 故障影响,描述发生故障对系统的影响
  4. 严重程度,可以自己定一个标准,但是要有标准依据,不能模糊
  5. 故障原因,描述发生故障的具体原因
  6. 故障概率,可以分几个档位,比如高中低三个档
  7. 风险程度,风险程度结合了严重程度和故障概率一起来定,综合评估
  8. 已有措施,针对故障的原因,有没有措施来应对,如检测告警、容错、自恢复
  9. 规避措施,为了降低故障概率做的事
  10. 解决措施,为了解决做的一些事情
  11. 后续措施,针对之前的内容,可以看出目前哪些地方做的不足,需要给出后续改进的方案