可观测性深度实践 —— 从 Metrics/Logs/Trace 到大规模企业全链路可观测体系为什么可观测性是“后端 2

前言：为什么可观测性是“后端 2.0 时代”的底座？
- 只有日志 = 初级系统
- 日志 + 指标 + 链路 = 中级系统
- 全链路可观测体系 + 智能告警 + SLA = 企业级系统
- 可观测性不是“运维工具”，是 系统工程能力
可观测性三大支柱的误区与正确打开方式
- Metrics：不是只采 CPU / RT，而是“业务指标 + 风险指标”
- Logs：结构化日志、埋点标准、审核链路
- Trace：跨服务链路不是图，是“依赖分析核心工具”
可观测数据的统一规范化
- traceId 在消息队列、定时任务、异步线程池中的传递
- 域名/业务线/租户字段统一
- 日志 schema 规范：字段、级别、编码
大型企业可观测平台架构
- 数据采集：Agent / SDK / Sidecar
- 数据处理：OTEL Collector、Kafka Pipeline
- 数据查询：ClickHouse + Loki + Prometheus
- Dashboard 体系：Grafana 多视图
智能告警体系（AIOps）
- 静态阈值 vs 动态阈值
- 区域报警（按租户）
- SLI/SLO 告警体系
- 告警抑制（避免风暴）
案例：一次“链路级 RT 上升”的真实排障过程
- 依赖瓶颈 → Redis 热点 → 索引缺失
- 如何通过 Trace + Metrics × Logs 三角定位
总结
- 可观测性不是为了查问题
- 是为了让系统“可解释、可预测、可治理”