从线上事故复盘看后端工程能力 —— 如何构建可复盘与可自愈的系统

14 阅读1分钟
  1. 前言

    • 绝大部分后端真正成长不是写功能
    • 是从事故里成长
    • 成熟团队的差异:不是不出问题,而是问题出现后能「可回溯、可解释、可修复、可预防」
  2. 线上事故的典型三大来源

    • 数据一致性问题
    • 缓存/查询热点 + 流量异常
    • 环境差异 & 人为错误(发布、参数、配置)
  3. 如何构建「可复盘」能力

    • 全链路 trace id
    • 请求级别 timeline
    • key 业务日志结构化
  4. 如何构建「可诊断」能力

    • 系统指标 → 指标树
    • 服务拓扑
    • 异常检测(Anomaly Detection)
  5. 如何构建「可自愈」能力

    • 限流(防扩散)
    • 熔断(防连锁)
    • 降级(维持服务)
  6. 最终价值

    • 事故不是 bug
    • 是后端体系 maturity 的试金石