-
前言:为什么所有大型系统都必须有“流量治理”?
- 流量不可控 = 事故根源
- 流量不透明 = 无法压测、无法扩容
- 流量不治理 = 业务随时被打爆
-
流量治理的“三层能力模型”
-
流量感知(Observability)
- 流量统计 / 热点识别 / 峰值预测
-
流量控制(Control)
- 限流 / 排队 / 胶囊隔离
-
流量调度(Orchestration)
- 分区路由 / 灰度流量 / 租户权重
-
-
流量分析能力
- 总入口流量分析
- Top API 分布
- 热点 Key 分布
- 多租户流量差异(按企业大小)
-
治理策略设计
- 全链路限流
- 按 QPS 限流
- 按用户/租户限流
- 按 Key 限流
- 按资源(DB/Redis/MQ)限流
- “信用值限流”模式(大厂策略)
-
流量调度平台化建设
- 在线调整限流阈值
- 租户级权重调度
- 多节点负载均衡
- API 级限流配置集群化同步
-
企业真实案例:高峰导出系统的流量治理
- 热点查询导致 DB 接近打挂
- 实施租户级限流 + 分批执行队列
- 峰值期间系统从濒死 → 稳定
-
总结
- 流量治理是稳定性的根基
- 企业越大,越必须“精细化流量运营”