-
前言:为什么可观测性是“后端 2.0 时代”的底座?
- 只有日志 = 初级系统
- 日志 + 指标 + 链路 = 中级系统
- 全链路可观测体系 + 智能告警 + SLA = 企业级系统
- 可观测性不是“运维工具”,是 系统工程能力
-
可观测性三大支柱的误区与正确打开方式
- Metrics:不是只采 CPU / RT,而是“业务指标 + 风险指标”
- Logs:结构化日志、埋点标准、审核链路
- Trace:跨服务链路不是图,是“依赖分析核心工具”
-
可观测数据的统一规范化
- traceId 在消息队列、定时任务、异步线程池中的传递
- 域名/业务线/租户字段统一
- 日志 schema 规范:字段、级别、编码
-
大型企业可观测平台架构
- 数据采集:Agent / SDK / Sidecar
- 数据处理:OTEL Collector、Kafka Pipeline
- 数据查询:ClickHouse + Loki + Prometheus
- Dashboard 体系:Grafana 多视图
-
智能告警体系(AIOps)
- 静态阈值 vs 动态阈值
- 区域报警(按租户)
- SLI/SLO 告警体系
- 告警抑制(避免风暴)
-
案例:一次“链路级 RT 上升”的真实排障过程
- 依赖瓶颈 → Redis 热点 → 索引缺失
- 如何通过 Trace + Metrics × Logs 三角定位
-
总结
- 可观测性不是为了查问题
- 是为了让系统“可解释、可预测、可治理”