可观测性深度实践 —— 从 Metrics/Logs/Trace 到大规模企业全链路可观测体系

47 阅读1分钟
  1. 前言:为什么可观测性是“后端 2.0 时代”的底座?

    • 只有日志 = 初级系统
    • 日志 + 指标 + 链路 = 中级系统
    • 全链路可观测体系 + 智能告警 + SLA = 企业级系统
    • 可观测性不是“运维工具”,是 系统工程能力
  2. 可观测性三大支柱的误区与正确打开方式

    • Metrics:不是只采 CPU / RT,而是“业务指标 + 风险指标”
    • Logs:结构化日志、埋点标准、审核链路
    • Trace:跨服务链路不是图,是“依赖分析核心工具”
  3. 可观测数据的统一规范化

    • traceId 在消息队列、定时任务、异步线程池中的传递
    • 域名/业务线/租户字段统一
    • 日志 schema 规范:字段、级别、编码
  4. 大型企业可观测平台架构

    • 数据采集:Agent / SDK / Sidecar
    • 数据处理:OTEL Collector、Kafka Pipeline
    • 数据查询:ClickHouse + Loki + Prometheus
    • Dashboard 体系:Grafana 多视图
  5. 智能告警体系(AIOps)

    • 静态阈值 vs 动态阈值
    • 区域报警(按租户)
    • SLI/SLO 告警体系
    • 告警抑制(避免风暴)
  6. 案例:一次“链路级 RT 上升”的真实排障过程

    • 依赖瓶颈 → Redis 热点 → 索引缺失
    • 如何通过 Trace + Metrics × Logs 三角定位
  7. 总结

    • 可观测性不是为了查问题
    • 是为了让系统“可解释、可预测、可治理”