数据中心建设实践思路与企业实践｜青训营笔记

純冷苏打水

2022-08-24 111 阅读2分钟

这是我参与「第四届青训营」笔记创作活动的的第15天。本篇笔记对于8.13日孔德振老师讲授的《数据中心建设实践思路与企业实践》的内容做一个复习总结。

企业数据架构

数据集成-业务数据收集
- CDC：业务数据库 -> 数据系统
- Log（点击事件等）：client / server log -> 数据系统
- 系统间同步传输：Kafka -> Hive 或者反向等等
数据生产：
- 离线 & 实时：原始数据 -> 数据处理 pipeline
数据服务：数据系统 -> 业务系统

数据中心案例

房产数据中心-数据查询要求
- 核心数据指标
  - 供需：房源客源
  - 过程：通话次数、带看次数
  - 结果：成交量
- 数据要求：
  - 多种查询条件：时间范围、业务类型等
  - 数据展示：每个经纪人的汇总数据、数据明细
  - 技术要求：300ms内返回、数据是实时秒级

实时数据生产

数据生成可行性：是否能产出这样需求的指标
目标
- 开发效率：较快满足客户需要
- 资源成本：计算效率高
- 数据质量：准确实时
计算架构 Lambda：离线和实时进行 merge，再进行 Query
问题：今天对以前的数据做了修改，离线不一致
解决方式-全量计算：用实时引擎计算所有数据
全量计算的问题：获取的数据量太大（数据湖：可能实时性相对差、CDC：数据不完全），状态存储成本相对高
HybridSource：支持源的任意组合，形成混合源
Hive 和 Kafka 有数据重复：row_number 算子去重加取最新正确数据
乱序问题：连续的 join 产生了不同的 shuffle，可能数据流不会正序到达
- 解决：增加一个 ReOrder 算子，增加了一个 list 集合的状态，先全关联，再下发，因为保存了之前的全关联，所以可以正确下发

数据服务

待补充