线上事故复盘模板：5步定位与防复发机制很多时候复盘问题更多停留在“谁改了什么”，却没有回答更关键的问题：为什么这个问题能

事故不可避免，但同类事故反复出现，通常不是技术问题，而是治理问题。

很多复盘停留在“谁改了什么”，却没有回答更关键的问题：为什么这个问题能进入生产，下一次如何被提前拦截？

本文提供一份可直接套用的事故复盘模板。

【场景：一次接口超时引发连锁故障】

典型过程：

问题并不只是“慢 SQL”或“机器不够”，而是系统防线没有形成闭环。

复盘的第一步是客观事实，不是主观判断。

建议记录：

目标：量化 MTTA（发现时长）与 MTTR（恢复时长）。

最小必填项：

没有影响面评估，优先级排序会失真。

建议采用“技术根因 + 机制根因”双层分析。

示例：

只修技术根因，问题很可能换个形式再次出现。

复盘要明确“当时做了什么”，并评估动作有效性。

例如：

每个动作都要写：执行时间、负责人、效果。

整改项必须可执行、可验收、可追踪：

建议每项都带 owner、截止日期、验收标准。

1. 事故摘要：发生了什么
2. 时间线：告警、止损、恢复关键节点
3. 影响评估：用户、业务、时长、损失
4. 根因分析：技术根因 + 机制根因
5. 处置过程：做了哪些动作，效果如何
6. 防复发项：owner + deadline + 验收标准
7. 经验沉淀：更新哪些规范与手册

下期预告：

《Java 面试高频系统设计题：回答框架与踩坑点》