数据中心建设实践思路与企业实践 | 青训营笔记

111 阅读2分钟

  这是我参与「第四届青训营 」笔记创作活动的的第15天。本篇笔记对于8.13日孔德振老师讲授的《数据中心建设实践思路与企业实践》的内容做一个复习总结。


企业数据架构
  • 数据集成-业务数据收集
    • CDC:业务数据库 -> 数据系统
    • Log(点击事件等):client / server log -> 数据系统
    • 系统间同步传输:Kafka -> Hive 或者反向等等
  • 数据生产:
    • 离线 & 实时:原始数据 -> 数据处理 pipeline
  • 数据服务:数据系统 -> 业务系统 image.png

数据中心案例
  • 房产数据中心-数据查询要求
    • 核心数据指标
      • 供需:房源客源
      • 过程:通话次数、带看次数
      • 结果:成交量
    • 数据要求:
      • 多种查询条件:时间范围、业务类型等
      • 数据展示:每个经纪人的汇总数据、数据明细
      • 技术要求:300ms内返回、数据是实时秒级

实时数据生产
  • 数据生成可行性:是否能产出这样需求的指标
  • 目标
    • 开发效率:较快满足客户需要
    • 资源成本:计算效率高
    • 数据质量:准确实时
  • 计算架构 Lambda:离线和实时进行 merge,再进行 Query
  • 问题:今天对以前的数据做了修改,离线不一致
  • 解决方式-全量计算:用实时引擎计算所有数据
  • 全量计算的问题:获取的数据量太大(数据湖:可能实时性相对差、CDC:数据不完全),状态存储成本相对高
  • HybridSource:支持源的任意组合,形成混合源
  • Hive 和 Kafka 有数据重复:row_number 算子去重加取最新正确数据
  • 乱序问题:连续的 join 产生了不同的 shuffle,可能数据流不会正序到达
    • 解决:增加一个 ReOrder 算子,增加了一个 list 集合的状态,先全关联,再下发,因为保存了之前的全关联,所以可以正确下发

数据服务

待补充