Case Study规范

306 阅读3分钟

问题描述

对线上故障进行概要描述,写清楚何时何系统因何原因发生什么故障,持续了多长时间,总体影响是什么(PV有损,服务拒绝还是功能错误?)

影响及损失

详细描述故障对业务造成的影响以及具体的损失数据,格式:

1,故障影响范围及程度说明

2,损失量情况

损失数据包括:流量损失、收入损失、流水损失、损失占当天的比例。

关键时间点

  • 请以时间顺序描述问题的发生、感知、解决、测试及周知的每一个关键时间点。
  • 时间具体到年月日时分秒yyyy-mm-dd HH:mm
  • 请使用角色如:产品、前端、后端、测试、运维
  • 请@到具体参与问题定位解决相关人员

2022-08-01 10:20 产品@xxx在xxx群里反馈问题,截图如下:

2022-08-01 10:20 前端@xxx在群里回复收到并开始定位问题

2022-08-01 10:30 前端@xxx和后端@xxx定位到了问题,先采用xxx方案及时止损

2022-08-01 10:30 前端@xxx解决了问题,并自测通过

2022-08-01 11:40 测试同学@xxx测试通过

2022-08-01 11:45 前端@xxx发起了上线单

2022-08-01 11:55 运维@xxx开发上线

2022-08-01 12:30 上线完毕

2022-08-01 12.33 测试@xxx回归线上没有问题,前端@xxx在xxx群里通知,问题已经解决

问题解决

详情描述解决问题的最终方案:

改了什么代码:可以贴出来代码,具体改了什么代码

修改了什么数据

等等

原因分析

可以采用"5WHY"分析法,又称"5问法",就是连续反复使用5次“为什么”方式自问,以打破砂锅问到底方式寻找问题的根本原因的方法。“5WHY”不限定必须或只做5次为什么的提问,以找到问题根因为准,也许是3次,也许是10几次都有可能。一般经验而言,反复提出5次为什么基本就可以寻找到问题的根因。

问题一: 为什么xxxxxx?

回答:xxx

问题二: 为什么xxxxx?

回答:xxx

问题三: 为什么xxxxx?

回答:xxx

问题四: 为什么xxxxx?

回答:xxx

问题五: 为什么xxxxx?

回答:xxx

具体案例可以参考方法论-5WHY分析法

下面是一些标准问题:

  1. 为什么会发生这个问题?design、coding、操作?
  1. 为什么测试阶段没有发现?
  1. 系统为什么不能容错?
  1. 能不能更早发现问题?
  1. 解决过程能否更快?
  1. 怎么防止类似的事情发生?

经验教训

暴露的问题改进措施
描述对应“现象&处理”中暴露出来的问题,包括技术、流程、意识方面的问题。针对暴露的问题,提出具体改进措施,每条措施需要包含五方面内容:- 针对的问题、- 措施具体内容、@负责人、设置完成时间- 措施落地效果计划如何验证或措施落地产出物

参考资料

memristor.gitbooks.io/devops/cont…