-
前言
- 大型企业系统扩张 3 年后必然遇到的问题:
服务依赖乱成一锅粥、调用链越来越长、谁依赖谁没人知道。 - 依赖问题的破坏力比 BUG 更强,会直接导致雪崩、环路、链路阻塞。
- 大型企业系统扩张 3 年后必然遇到的问题:
-
什么是服务依赖治理?
- 不是文档
- 不是画个拓扑图
- 是“依赖是否合理 + 是否可量化 + 是否可监控”
-
依赖地狱的典型表现
- A → B → C → D → E,一层出问题全挂
- 循环依赖(A→B→A)导致死锁
- 服务升级无法独立推进
- 新人根本无法理解系统
-
依赖治理体系四大能力
- 依赖可视化(实时拓扑)
- 依赖分级(核心 / 非核心)
- 依赖风险等级(RT、失败率、波动性)
- 依赖熔断与降级策略
-
落地方案
- 链路追踪系统(OpenTelemetry / Skywalking)
- 依赖矩阵分析(调用次数、失败率、稳定性)
- “依赖评审制度”——新增依赖必须过审
- 依赖 SLA 管理:核心链路必须强 SLA
-
案例:一个复杂的订单系统依赖重构
- 如何从 17 个依赖削减到 6 个
- 如何划清“订单域边界”
- 如何处理跨域调用(事件模型 vs 直接 RPC)
-
总结
- 后端能力的天花板其实就是“依赖治理能力”
- 做好依赖治理 = 系统生存周期延长 3~5 年