数据中心建设实践思路与企业实践 | 青训营笔记

182 阅读2分钟

这是我参与「第四届青训营 」笔记创作活动的第18天

1. 企业数据架构

image.png

  • 计算/存储引擎:Flink、Spark、ClickHouse、Doris、Kafka、Hive...
  • 数据集成:业务数据收集(数据库CDC、业务日志等)、Flink Connector体系
  • 数据治理:数据质量、数据安全、数据生命周期...
  • 数据开发:大数据开发工具套件、发布运维工具、元数据管理工具...

2. 数据中心案例

  • 以房产业务举例说明数据中心建设目标和要求
  • 房产业务介绍:房产服务平台、经纪人、客户
  • 数据中心核心指标分析:供需、过程、结果
  • 数据中心查询要求:查询条件、数据结果、技术要求

3. 实时数据生产

  • 案例生产方案分析:数据探查、明确指标口径和产出粒度、生产架构、计算难点

  • 数据探查:分析数据信息是否齐全,即基于原始数据计算指标可行性

  • 数据架构:lambda架构和全量计算架构比对,确定合适的生产架构方案

  • 计算难点解决

    • 全量数据获取:hybrid source
    • 精确计算
      • 去重&更新处理:基于retract机制
      • 乱序问题解决:流join乱序问题方案
    • 计算效率
      • MiniBatch-聚合计算
      • MiniBatch-join
  • 数据质量

    • 任务稳定性:消费LAG、JVM、资源、算子
    • 数据正确性:和离线比对、趋势比对、异常值占比
  • 实时数仓

    • 数据分层:数据复用,减少重复开发
    • 数据管理:格式、元数据

image.png

image.png

image.png

3.1 查询快-应用优化

  • 原始信息关联

    • Local Join:如计算带看量,带看数据和房信息按照house_id分布,无shuffle io开销
    • 预关联:直接生产“大宽表”
  • 计算复杂度

    • 预计算:提前聚合到特定粒度,如带看量聚合到经纪人+天+业务类型
    • 提升信息密度:bit化

3.2 稳定-如何解决

  • 熔断触发策略:

    • 比如错误率每秒超过10%
    • 响应时间>5s
  • 动作:

    • 直接返回失败
  • 限流、降级

    • 限流:根据查询客户端、接口等配置查询限额
    • 降级:主备存储/服务集群,降级预案

总结

这节课我了解了大数据架构中数据流向,明白了开发流程。

参考

  1. 实时数据中心建设思路与企业实践 - 孔德振 - ppt.pptx - 飞书文档 (feishu.cn)
  2. 【大数据专场 学习资料六】第四届字节跳动青训营 - 掘金 (juejin.cn)