技术管理随笔-27-搭班子、定战略、带队伍18

112 阅读2分钟

「这是我参与2022首次更文挑战的第28天,活动详情查看:2022首次更文挑战」。


记得一位联想空降的领导对我说,联想的“管理三要素”是搭班子、定战略、带队伍,他之前是这样做,来到我们公司后,就将这三要素讲给我们。


带队伍—— COE报告(Cause Of Error)

纳西姆·塔勒布(Nassim Taleb)提出反脆弱理论(anti-fragility),反脆弱的主要特点是可能“犯错误”,但又不会分崩离析,同时,危机反而让反脆弱技术变得更好。

同样,我们的IT系统也需要不断完善,变得对失败有更强的适应力。从客户反馈以及运行的故障中学习,使系统逐渐强大,功能更加丰富。

COE报告(Cause Of Error)管理是一个记录线上工具并使系统持续改进的工具。CoE是总结线上缺陷的报告,记录问题现象,根因分析,解决方案和结果。

目标:

1、客观记录事件过程及处理方案、结果;

2、分析根因,防止本类问题再次发生;

3、作为运维问题知识库;

填写注意事项:

  • 按项目建立目录结构;
  • 标题请按“COE #[{项目简称}]{序号}-{问题标题}”建立,如:“COE #[谷根]1-医生端患者列表分页查询结果不正确”;
  • 若线上问题处理时间紧张,先记录问题现象、过程、处理方案/结果,问题原因分析和后续跟进事项允许再【2周内】补填,请在标题加上“TODO”标记;
  • 每次迭代需要编写线上问题回顾报告,在迭代质量回顾会上,结合具体COE报告依次讲解回顾;

报告实例

所属系统:

XXX患者端

跟踪Bug:

KXHNEW-326 BUG-患者端-发起付费的问诊点击提交报服务器异常

什么问题:

患者端选择需要付费的医生,发起问诊点击提交,报服务器异常

谁收到了影响(考虑以客户为中心):

患者无法发起付费问诊

潜在风险:

这个问题什么时候发生的:

问题发生: 2020/08/12

问题发现: 产上线后测试发现该问题, 测试环境复验没有此问题

回滚服务器到最近一次正常状态:**

问题解决(重新部署/修复数据):

为什么会发生这个问题:

商户号和小程序对应关系配置错误

如何避免这类问题再次发生:

tsl-liuboyang:上线前做好配置清单检查