-
前言
- 绝大部分后端真正成长不是写功能
- 是从事故里成长
- 成熟团队的差异:不是不出问题,而是问题出现后能「可回溯、可解释、可修复、可预防」
-
线上事故的典型三大来源
- 数据一致性问题
- 缓存/查询热点 + 流量异常
- 环境差异 & 人为错误(发布、参数、配置)
-
如何构建「可复盘」能力
- 全链路 trace id
- 请求级别 timeline
- key 业务日志结构化
-
如何构建「可诊断」能力
- 系统指标 → 指标树
- 服务拓扑
- 异常检测(Anomaly Detection)
-
如何构建「可自愈」能力
- 限流(防扩散)
- 熔断(防连锁)
- 降级(维持服务)
-
最终价值
- 事故不是 bug
- 是后端体系 maturity 的试金石