「这是我参与2022首次更文挑战的第28天,活动详情查看:2022首次更文挑战」。
记得一位联想空降的领导对我说,联想的“管理三要素”是搭班子、定战略、带队伍,他之前是这样做,来到我们公司后,就将这三要素讲给我们。
带队伍—— COE报告(Cause Of Error)
纳西姆·塔勒布(Nassim Taleb)提出反脆弱理论(anti-fragility),反脆弱的主要特点是可能“犯错误”,但又不会分崩离析,同时,危机反而让反脆弱技术变得更好。
同样,我们的IT系统也需要不断完善,变得对失败有更强的适应力。从客户反馈以及运行的故障中学习,使系统逐渐强大,功能更加丰富。
COE报告(Cause Of Error)管理是一个记录线上工具并使系统持续改进的工具。CoE是总结线上缺陷的报告,记录问题现象,根因分析,解决方案和结果。
目标:
1、客观记录事件过程及处理方案、结果;
2、分析根因,防止本类问题再次发生;
3、作为运维问题知识库;
填写注意事项:
- 按项目建立目录结构;
- 标题请按“COE #[{项目简称}]{序号}-{问题标题}”建立,如:“COE #[谷根]1-医生端患者列表分页查询结果不正确”;
- 若线上问题处理时间紧张,先记录问题现象、过程、处理方案/结果,问题原因分析和后续跟进事项允许再【2周内】补填,请在标题加上“TODO”标记;
- 每次迭代需要编写线上问题回顾报告,在迭代质量回顾会上,结合具体COE报告依次讲解回顾;
报告实例
所属系统:
XXX患者端
跟踪Bug:
KXHNEW-326 BUG-患者端-发起付费的问诊点击提交报服务器异常
什么问题:
患者端选择需要付费的医生,发起问诊点击提交,报服务器异常
谁收到了影响(考虑以客户为中心):
患者无法发起付费问诊
潜在风险:
这个问题什么时候发生的:
问题发生: 2020/08/12
问题发现: 生 产上线后测试发现该问题, 测试环境复验没有此问题
回滚服务器到最近一次正常状态:**
问题解决(重新部署/修复数据):
为什么会发生这个问题:
商户号和小程序对应关系配置错误
如何避免这类问题再次发生:
tsl-liuboyang:上线前做好配置清单检查