【标准设立背景】
为确保生产环境摸高动作目的明确,为生产环境提供切实参考值;标准化摸高执行流程,减少误操作风险;杜绝摸高动作不影响生产业务、不造成资损。故业务运维根据已执行的实际情况,建立摸高标准流程,为业务摸高参与方提供指引。
【适用范围】
包括但不限于“线上点餐业务线”、“D3外送业务线”、“PH扫码业务线”等拥有独立外网入口承接业务的业务线,或者包含在核心业务流程的重要应用。
【摸高目标分类】
- 新老服务交替:指核心流程上的应用程序有新老交替时,通过摸高验证其是否为流程短板;
- 核心组件更替:指核心服务重要中间件或者有架构变更后,通过摸高论证能够达到的业务容量;
- 品牌活动要求:指根据品牌对大型活动的需求,通过摸高调整服务容量以达到各环境的理论值;
- 业务容量验证:指周期性以上一次的摸高结果为目标,验证周期内是否有核心服务性能提升或者劣化;
【摸高准入门槛】
如应用不满足准入门槛但需要摸高的,应用owner需向所属团队架构师报备。
一、系统稳定性
- 目标应用在RCA记录中无未解决的故障
- 目标应用在《百胜云面向消费者服务稳定性》评分符合所属团队标准
- 目标应用的SLA在最近一个月达到月99.99%
二、性能指标
- 目标应用在过去两周内平均响应时间不超过 800 毫秒
- 目标应用在过去两周内核心接口超时率低于1%
- 目标应用在【容量管理平台】上不能有未解决的衰减事件
三、监控&预案
- 目标应用已建立涵盖性能与业务的核心指标的实时监控看板。
- 操盘手预案已涵盖目标应用/环境,能够进行救援。
- 目标应用/环境相关基础信息已在【容量管理平台】完成建立。
【摸高停止标准】
-
摸高环境的核心服务压力位达40%及以上;
-
摸高环境的核心接口超时/熔断率超10%且2分钟未恢复;
-
摸高环境的限流率达到1%且2分钟未恢复;
-
收到摸高环境业务异常报修;
- 注:
-
- 满足上述中任一项即刻停止摸高
- 当TSC判断摸高过程将对线上环境造成影响时可随时叫停
【摸高SOP】
一、发起阶段
-
摸高发起人至少在摸高前一天确定摸高任务信息,包括但不限于:
- 摸高的目标
- 摸高的业务线
- 起止时间
- 摸高环境
- 终止条件
-
摸高发起人将上述信息以报备形式发送至相关业务线的核心大群
-
应用运维将上述信息维护进【容量管理平台】,创建摸高事件
二、执行阶段
- 应用运维在摸高当天餐期前20分确认完成摸高环境的扩容以及健康检查等准备工作
- TSC在上述检查完成后即开始起始流量比例调整至目标单元,等待餐期高峰到来
内网服务须在摸高开始前做完调整,摸高期间内网流量不做调度!
-
餐期开始后,TSC按摸高发起人需求每隔10分钟增加流量
-
每增加一次流量,应用运维与TSC需关注该环境核心指标:
- CPU使用率
- 域名触发限流量级
- 5xx、4xx报错
- QPS峰值
- TP99
- 订单峰值
-
摸高过程中,摸高发起人须根据核心指标判断是否追加或者减少流量
三、收尾阶段
- 完成摸高预设目标
- 满足【摸高停止标准】
- 餐期峰值过后
上述任一场景达成后,TSC将流量按5%~10%步长分流到其他单元
四、结果分析
应用运维负责将摸高环境【容量管理平台】指标导出,与研发共同分析核心指标。
建议指标格式如下: