服务依赖治理体系 —— 如何从“依赖地狱”走向可控的服务拓扑

25 阅读1分钟
  1. 前言

    • 大型企业系统扩张 3 年后必然遇到的问题:
      服务依赖乱成一锅粥、调用链越来越长、谁依赖谁没人知道。
    • 依赖问题的破坏力比 BUG 更强,会直接导致雪崩、环路、链路阻塞。
  2. 什么是服务依赖治理?

    • 不是文档
    • 不是画个拓扑图
    • 是“依赖是否合理 + 是否可量化 + 是否可监控”
  3. 依赖地狱的典型表现

    • A → B → C → D → E,一层出问题全挂
    • 循环依赖(A→B→A)导致死锁
    • 服务升级无法独立推进
    • 新人根本无法理解系统
  4. 依赖治理体系四大能力

    • 依赖可视化(实时拓扑)
    • 依赖分级(核心 / 非核心)
    • 依赖风险等级(RT、失败率、波动性)
    • 依赖熔断与降级策略
  5. 落地方案

    • 链路追踪系统(OpenTelemetry / Skywalking)
    • 依赖矩阵分析(调用次数、失败率、稳定性)
    • “依赖评审制度”——新增依赖必须过审
    • 依赖 SLA 管理:核心链路必须强 SLA
  6. 案例:一个复杂的订单系统依赖重构

    • 如何从 17 个依赖削减到 6 个
    • 如何划清“订单域边界”
    • 如何处理跨域调用(事件模型 vs 直接 RPC)
  7. 总结

    • 后端能力的天花板其实就是“依赖治理能力”
    • 做好依赖治理 = 系统生存周期延长 3~5 年