这是我参与「第四届青训营 」笔记创作活动的第28天
本次笔记重点内容
- 企业数据架构
- 数据中心案例
- 实时数据生产
- 数据服务
企业数据架构
- 计算/存储引擎:Flink、Spark、ClickHouse、Doris、Kafka、Hive...
- 数据集成:业务数据收集(数据库CDC、业务日志等)、Flink Connector体系
- 数据治理:数据质量、数据安全、数据生命周期...
- 数据开发:大数据开发工具套件、发布运维工具、元数据管理工具...
数据集成
业务数据收集
CDC
数据流向:业务数据库->数据系统
Log
数据流向:client/server log ->数据系统
系统间数据同步传输
数据生成
离线 & 实时
数据流向:原始数据->数据处理pipeline
数据服务
数据流向:数据系统->业务系统
数据中心案例
- 以房产业务举例说明数据中心建设目标和要求
- 房产业务介绍:房产服务平台、经纪人、客户
- 数据中心核心指标分析:供需、过程、结果
- 数据中心查询要求:查询条件(时间范围、业务类型)、数据结果、技术要求(数据是实时秒级)
实时数据生产
计算分析
目标
- 开发效率:较快满足用户需要
- 资源成本:计算效率高
- 数据质量:准确无误、实时
计算架构——Lambda VS 全量计算
计算难点
- 全量数据获取:hybrid source
- 精确计算
- 去重&更新处理:基于retract机制
- 乱序问题解决:流join乱序问题方案
- 去重&更新处理:基于retract机制
- 计算效率
- MiniBatch-聚合计算:聚合函数批式处理,本质是延迟换吞吐
- MiniBatch-join
数仓建设
数据复用,减少重复开发
数据服务
查询快——引擎选择
- 点查:根据一个用户查询他的指标,不用分析,结果直接拿来展示即可
- 分析式:根据查询条件(业务日期、类型)
如何更快的查询
- 原始信息筛选和关联效率:单表筛选够不够快,信息关联够不够快
- 计算处理效率
- 只关注目标所需数据:比如只查询带看量
计算向量化
CPU支持向量化指令,单指令多数据处理
应用优化
原始信息关联
- Local Join
- 预关联
计算复杂度
- 预计算
- 提升信息密度
宽表扩建
目标是减少查询现join,生产侧把相同粒度(如经纪人)指标及相关的维度数据关联成宽表