PRD环境摸高流程

37 阅读4分钟

【标准设立背景】

为确保生产环境摸高动作目的明确,为生产环境提供切实参考值;标准化摸高执行流程,减少误操作风险;杜绝摸高动作不影响生产业务、不造成资损。故业务运维根据已执行的实际情况,建立摸高标准流程,为业务摸高参与方提供指引。




【适用范围】

包括但不限于“线上点餐业务线”、“D3外送业务线”、“PH扫码业务线”等拥有独立外网入口承接业务的业务线,或者包含在核心业务流程的重要应用。




【摸高目标分类】

  1. 新老服务交替:指核心流程上的应用程序有新老交替时,通过摸高验证其是否为流程短板;
  2. 核心组件更替:指核心服务重要中间件或者有架构变更后,通过摸高论证能够达到的业务容量;
  3. 品牌活动要求:指根据品牌对大型活动的需求,通过摸高调整服务容量以达到各环境的理论值;
  4. 业务容量验证:指周期性以上一次的摸高结果为目标,验证周期内是否有核心服务性能提升或者劣化;



【摸高准入门槛】

如应用不满足准入门槛但需要摸高的,应用owner需向所属团队架构师报备。

一、系统稳定性

  1. 目标应用在RCA记录中无未解决的故障
  2. 目标应用在《百胜云面向消费者服务稳定性》评分符合所属团队标准
  3. 目标应用的SLA在最近一个月达到月99.99%

二、性能指标

  1. 目标应用在过去两周内平均响应时间不超过 800 毫秒
  2. 目标应用在过去两周内核心接口超时率低于1%
  3. 目标应用在【容量管理平台】上不能有未解决的衰减事件

三、监控&预案

  1. 目标应用已建立涵盖性能与业务的核心指标的实时监控看板。
  2. 操盘手预案已涵盖目标应用/环境,能够进行救援。
  3. 目标应用/环境相关基础信息已在【容量管理平台】完成建立。



【摸高停止标准】

  1. 摸高环境的核心服务压力位达40%及以上;

  2. 摸高环境的核心接口超时/熔断率超10%且2分钟未恢复;

  3. 摸高环境的限流率达到1%且2分钟未恢复;

  4. 收到摸高环境业务异常报修;

    1. 注:
      1. 满足上述中任一项即刻停止摸高
      2. TSC判断摸高过程将对线上环境造成影响时可随时叫停



【摸高SOP】

一、发起阶段

  1. 摸高发起人至少在摸高前一天确定摸高任务信息,包括但不限于:

    1. 摸高的目标
    2. 摸高的业务线
    3. 起止时间
    4. 摸高环境
    5. 终止条件
  2. 摸高发起人将上述信息以报备形式发送至相关业务线的核心大群

  3. 应用运维将上述信息维护进【容量管理平台】,创建摸高事件

二、执行阶段

  1. 应用运维在摸高当天餐期前20分确认完成摸高环境的扩容以及健康检查等准备工作
  2. TSC在上述检查完成后即开始起始流量比例调整至目标单元,等待餐期高峰到来

内网服务须在摸高开始前做完调整,摸高期间内网流量不做调度!

  1. 餐期开始后,TSC按摸高发起人需求每隔10分钟增加流量

  2. 每增加一次流量,应用运维与TSC需关注该环境核心指标:

    1. CPU使用率
    2. 域名触发限流量级
    3. 5xx、4xx报错
    4. QPS峰值
    5. TP99
    6. 订单峰值
  3. 摸高过程中,摸高发起人须根据核心指标判断是否追加或者减少流量

三、收尾阶段

  • 完成摸高预设目标
  • 满足【摸高停止标准】
  • 餐期峰值过后

上述任一场景达成后,TSC将流量按5%~10%步长分流到其他单元

四、结果分析

应用运维负责将摸高环境【容量管理平台】指标导出,与研发共同分析核心指标。

建议指标格式如下: