这是我参与「第四届青训营 」笔记创作活动的的第15天。本篇笔记对于8.13日孔德振老师讲授的《数据中心建设实践思路与企业实践》的内容做一个复习总结。
企业数据架构
- 数据集成-业务数据收集
- CDC:业务数据库 -> 数据系统
- Log(点击事件等):client / server log -> 数据系统
- 系统间同步传输:Kafka -> Hive 或者反向等等
- 数据生产:
- 离线 & 实时:原始数据 -> 数据处理 pipeline
- 数据服务:数据系统 -> 业务系统
数据中心案例
- 房产数据中心-数据查询要求
- 核心数据指标
- 供需:房源客源
- 过程:通话次数、带看次数
- 结果:成交量
- 数据要求:
- 多种查询条件:时间范围、业务类型等
- 数据展示:每个经纪人的汇总数据、数据明细
- 技术要求:300ms内返回、数据是实时秒级
- 核心数据指标
实时数据生产
- 数据生成可行性:是否能产出这样需求的指标
- 目标
- 开发效率:较快满足客户需要
- 资源成本:计算效率高
- 数据质量:准确实时
- 计算架构 Lambda:离线和实时进行 merge,再进行 Query
- 问题:今天对以前的数据做了修改,离线不一致
- 解决方式-全量计算:用实时引擎计算所有数据
- 全量计算的问题:获取的数据量太大(数据湖:可能实时性相对差、CDC:数据不完全),状态存储成本相对高
- HybridSource:支持源的任意组合,形成混合源
- Hive 和 Kafka 有数据重复:row_number 算子去重加取最新正确数据
- 乱序问题:连续的 join 产生了不同的 shuffle,可能数据流不会正序到达
- 解决:增加一个 ReOrder 算子,增加了一个 list 集合的状态,先全关联,再下发,因为保存了之前的全关联,所以可以正确下发
数据服务
待补充