问题描述
对线上故障进行概要描述,写清楚何时何系统因何原因发生什么故障,持续了多长时间,总体影响是什么(PV有损,服务拒绝还是功能错误?)
影响及损失
详细描述故障对业务造成的影响以及具体的损失数据,格式:
1,故障影响范围及程度说明
2,损失量情况
损失数据包括:流量损失、收入损失、流水损失、损失占当天的比例。
关键时间点
- 请以时间顺序描述问题的发生、感知、解决、测试及周知的每一个关键时间点。
- 时间具体到年月日时分秒yyyy-mm-dd HH:mm
- 请使用角色如:产品、前端、后端、测试、运维
- 请@到具体参与问题定位解决相关人员
2022-08-01 10:20 产品@xxx在xxx群里反馈问题,截图如下:
2022-08-01 10:20 前端@xxx在群里回复收到并开始定位问题
2022-08-01 10:30 前端@xxx和后端@xxx定位到了问题,先采用xxx方案及时止损
2022-08-01 10:30 前端@xxx解决了问题,并自测通过
2022-08-01 11:40 测试同学@xxx测试通过
2022-08-01 11:45 前端@xxx发起了上线单
2022-08-01 11:55 运维@xxx开发上线
2022-08-01 12:30 上线完毕
2022-08-01 12.33 测试@xxx回归线上没有问题,前端@xxx在xxx群里通知,问题已经解决
问题解决
详情描述解决问题的最终方案:
改了什么代码:可以贴出来代码,具体改了什么代码
修改了什么数据
等等
原因分析
可以采用"5WHY"分析法,又称"5问法",就是连续反复使用5次“为什么”方式自问,以打破砂锅问到底方式寻找问题的根本原因的方法。“5WHY”不限定必须或只做5次为什么的提问,以找到问题根因为准,也许是3次,也许是10几次都有可能。一般经验而言,反复提出5次为什么基本就可以寻找到问题的根因。
问题一: 为什么xxxxxx?
回答:xxx
问题二: 为什么xxxxx?
回答:xxx
问题三: 为什么xxxxx?
回答:xxx
问题四: 为什么xxxxx?
回答:xxx
问题五: 为什么xxxxx?
回答:xxx
具体案例可以参考方法论-5WHY分析法
下面是一些标准问题:
- 为什么会发生这个问题?design、coding、操作?
- 为什么测试阶段没有发现?
- 系统为什么不能容错?
- 能不能更早发现问题?
- 解决过程能否更快?
- 怎么防止类似的事情发生?
经验教训
| 暴露的问题 | 改进措施 |
|---|---|
| 描述对应“现象&处理”中暴露出来的问题,包括技术、流程、意识方面的问题。 | 针对暴露的问题,提出具体改进措施,每条措施需要包含五方面内容:- 针对的问题、- 措施具体内容、@负责人、设置完成时间- 措施落地效果计划如何验证或措施落地产出物 |