如何处理「线上问题」

244 阅读1分钟

什么是「线上问题」

从产品开发周期上来讲,「线上问题」发生在产品发布后。

「线上问题」指提供给用户的服务全部或部分不可用、服务性能低、用户体验不好等。在产品前期阶段,为了抢占市场先机,产品新功能的发布速度追求往往优先于其质量,埋下了很多技术债务,部分技术债务的爆发会引起「线上问题」,造成客户满意度下降,甚至是直接经济损失。

「线上问题」流程概览

发现 -> 处理 -> 总结 -> 反馈

flow-summary.jpg

严重程度

  严重程度   描述   处理方式 
  致命   最高级别,系统或服务完全停止或无法使用   立即采取紧急措施进行解决 
  严重   次高级别,系统或服务部分停止或使用受限   尽快地采取措施进行解决 
  一般   一般级别,系统或服务的使用没有明显的影响   但需要在合理的时间内进行处理,以防发展成更高级别的故障 
  轻微   最低级别,不影响系统或服务使用的小问题或异常   日常维护过程中逐步处理 

处理流程

用户反馈 & 监控告警

flow-detail.jpg

值班策略

每周轮换:每周一上午10点,会在钉群推送本周值班的人员,如下图

alert.jpg

错误分析报告

每天会进行日志分析,向钉钉服务告警群推送 日志错误分类报告

值班RD每天下班前,针对报告进行分析,如果判断为线上问题,报告给QA进行登记

复盘报告

故障复盘报告(致命)

review-report.jpg

双周复盘报告(整体)

bi-weekly-review-report.jpg