注意
本规范一经制定,大家务必严格遵守
涉及多方合作上线的,需要产出详细上线计划
自检: commiter 发起上线流程后,先进行自检,该流程在发起提交后,review环节之前
复核: 自检完毕后,进行review流程,联系 reviewer 进行检查,之后执行后续上线流程
自检与复核CL
Common
-
MR内信息是否完备(上下文,上线修改类型)?
-
是否同步到了需要的上下游?
-
监控是否配置完毕?
- 附 监控地址
-
报警是否配置完毕?
- 附 报警地址
-
自测是否充分?
- Boe ?
- 判空是否都处理过? 线上尽量不出现低级错误导致的panic
-
是否新增依赖方?
- 如果有,需要明确 强弱依赖?降级原则?预期流量是否同步到依赖方?
-
是否新功能、新接口上线?或者 重构服务上线?
- 是否有开关?
- 是否需要白名单?
-
新上线功能是否补充README?
RPC
-
Kirin接入检查
- 若有涉及Kirin权限校验,需检查自身以及依赖方生产环境Kirin是否配置完毕
-
KMS接入检查
- 若有涉及KMS加解密,需检查生产环境KMS是否已授权
-
关键业务流转是否发送Lark通知
-
上线删ppe泳道
API
-
是否周知客户端、前端?
-
是否涉及兼容性问题?
- 如果涉及,是否处理了?
-
是否涉及客户端?
- 如果涉及,是否充分自测?(iOS、Android)
Script
- 任务执行是否允许重复?不允许重复执行的任务是否做了加锁等处理?
- 任务执行成功or失败是否有监控报警?关键任务建议增加lark通知
- 任务执行失败是否有自动or手动重试机制?
Dorado
- 是否配置运行监控?
- 手否配置质量监控?
- 任务修改 CheckList:直播数据平台hsql任务修改CheckList
小流量 / 全流量 CL
流程规范
- 小流量需观察10-30分钟
服务指标
-
是否有异常波动(包括自身和上下游),如果波动,是否同步信息,是否扩容,是否回滚?
- 内存
- CPU
- 流量
-
日志是否正常吞吐?
业务指标
- QPS 是否波动?
- 延迟 是否上涨?