全链路容量评估体系(Capacity Planning)—— 如何让系统从“能跑”到“可预测可扩容”?

33 阅读1分钟
  1. 前言:为什么“容量评估”是决定系统能否活下去的核心能力?

    • 系统崩溃不是因为坏
    • 是因为 超出容量却无人知晓
    • 容量规划是大厂 SRE/架构的核心任务之一
  2. 容量评估的三大核心指标

    • 吞吐(Throughput)
    • 延迟(Latency)
    • 资源占用(CPU / 内存 / IOPS / 连接数)
  3. 企业级容量评估模型(黄金四步)

    1. 测量(Measure) :真实流量画像、峰值 QPS、热点路径
    2. 建模(Model) :每个服务的容量曲线
    3. 预测(Forecast) :大促、活动、增长率预测
    4. 决策(Plan) :扩容策略、预案、阈值
  4. 容量建模(最难也最关键)

    • 线性模型 vs 多段模型
    • 瓶颈识别(CPU-bound、IO-bound、DB-bound)
    • “软上限”和“硬上限”概念
    • 如何用压测数据拟合实际容量曲线
  5. 容量评估必备工具链

    • APM(Skywalking / Jaeger)
    • Prometheus + Grafana
    • k6 / JMeter / Locust
    • 实时热点分析
  6. 服务链路容量分析(全链路)

    • 入口网关 → 应用服务 → DB → Redis → MQ
    • 如何计算每一环的容量余量?
  7. 企业真实案例:双 11 大促容量规划

    • 压测 → 瓶颈发现 → RT 建模
    • 重点链路“弱点强化”(Redis 热 key)
    • 最终稳定支撑百倍流量
  8. 总结

    • 高可用不是“扛住了”
    • 高可用是 “提前知道能扛住多少、哪里扛不住、怎么扛住”