服务依赖治理体系 —— 如何从“依赖地狱”走向可控的服务拓扑大型企业系统扩张 3 年后必然遇到的问题：服务依赖乱成一锅

前言
- 大型企业系统扩张 3 年后必然遇到的问题：
  服务依赖乱成一锅粥、调用链越来越长、谁依赖谁没人知道。
- 依赖问题的破坏力比 BUG 更强，会直接导致雪崩、环路、链路阻塞。
什么是服务依赖治理？
- 不是文档
- 不是画个拓扑图
- 是“依赖是否合理 + 是否可量化 + 是否可监控”
依赖地狱的典型表现
- A → B → C → D → E，一层出问题全挂
- 循环依赖（A→B→A）导致死锁
- 服务升级无法独立推进
- 新人根本无法理解系统
依赖治理体系四大能力
- 依赖可视化（实时拓扑）
- 依赖分级（核心 / 非核心）
- 依赖风险等级（RT、失败率、波动性）
- 依赖熔断与降级策略
落地方案
- 链路追踪系统（OpenTelemetry / Skywalking）
- 依赖矩阵分析（调用次数、失败率、稳定性）
- “依赖评审制度”——新增依赖必须过审
- 依赖 SLA 管理：核心链路必须强 SLA
案例：一个复杂的订单系统依赖重构
- 如何从 17 个依赖削减到 6 个
- 如何划清“订单域边界”
- 如何处理跨域调用（事件模型 vs 直接 RPC）
总结
- 后端能力的天花板其实就是“依赖治理能力”
- 做好依赖治理 = 系统生存周期延长 3～5 年