稳定性治理方法论

219 阅读1分钟

稳定性治理按照故障发生的不同阶段划可以分为事前的故障防范,事中的故障感知、故障触达、故障止损,事后的故障复盘三个大的阶段。

其中事前的故障防范又可以细分为人为因素和自然因素。其中人为因素主要包括良好的系统架构和实现,完备的团队运维流程机制,良好的线上意识和能力,良好的研发项目管理等,举个例子,比如上线一定要具备可灰度、可监控、可回滚的属性。自然因素主要包括服务治理、日常演练和资损防控等方面。

事中的故障感知、故障触达和故障止损主要是通过监控治理、告警治理和 SOP 梳理来达成的。

更多精彩内容,欢迎到我的 github 仓库去看: about_cs