这是我参与「第四届青训营 」笔记创作活动的第17天.
课程回顾
一、企业数据架构
- 企业整体数据架构:基础引擎、数据集成/生产/服务、开发和治理工具
-
关键模块及数据流向
-
数据集成
- 业务数据收集:数据库变更数据收集(CDC)、业务日志收集(业务数据->数据处理系统)
- 大数据系统内传输:基于Flink丰富的connector体系 (数据系统内)
-
数据生产:实时和离线生产pipeline (数据系统内)
-
数据服务:统一数据服务架构(数据系统->业务系统)
-
- 计算/存储引擎:Flink、Spark、ClickHouse、Doris、Kafka、Hive...
- 数据集成:业务数据收集(数据库CDC、业务日志等)、Flink Connector体系
- 数据治理:数据质量、数据安全、数据生命周期...
- 数据开发:大数据开发工具套件、发布运维工具、元数据管理工具...
1、数据集成
业务数据收集
- (1)Log
- (2)CDC
系统间同步传输
2、数据生产
离线&实时
- 生产架构:Lambda架构
-
计算引擎:讲述流计算核心业务问题解决方案
- Hybrid Source:nightlies.apache.org/flink/flink…
- Dynamic Table&Retract机制:nightlies.apache.org/flink/flink…
- Minibatch优化:nightlies.apache.org/flink/flink…
- Catalog相关:nightlies.apache.org/flink/flink…
- 实时数仓:数据仓库、数仓分层(ODS、DWD、DWS、APP)...
3、数据服务
-
OLAP引擎:ClickHouse、Doris
- 列存
- 索引
- JOIN:广播、colocate join、bucket join、shuffle join
- 向量化计算
- SQL优化:RBO、CBO
- Bitmap
- 稳定性:熔断、限流、降级
二、数据中心案例
- 以房产业务举例说明数据中心建设目标和要求
- 房产业务介绍:房产服务平台、经纪人、客户
- 数据中心核心指标分析:供需、过程、结果
- 数据中心查询要求:查询条件、数据结果、技术要求
房产业务介绍
1、核心数据指标
2、数据查询要求
三、实时数据生产
- 以房产业务举例说明数据中心建设目标和要求
- 房产业务介绍:房产服务平台、经纪人、客户
- 数据中心核心指标分析:供需、过程、结果
- 数据中心查询要求:查询条件、数据结果、技术要求
1、数据分析
(1)数据产出目标
(2)数据生产可行性
2、计算分析
(1)目标
(2)计算框架——Lambda
- 数据产出
- 问题
(3)计算框架-全量计算
- 问题解决
- 问题分析
见上图,问题:如何获取全量的原始数据?答:数据湖-实行性相对差、CDC:Log等数据?
(4)计算架构-架构选择
(5)计算难点
- 全量数据获取-Hybrid Source
- 准确-处理去重&更新(Retract)
- 准确-join乱序问题场景
- join乱序问题解决
- 计算效率-聚合
- 效率-Join
join算子逻辑
- 效率-Minibatch Join
(6)数据质量
- 任务稳定性
- 数据持续正确性-监控对比
3、数仓建设
(1)数仓
- 数据组织方案
- 元数据管理
四、数据服务
- 整体架构:查询引擎、查询优化和执行、稳定性、元数据
-
案例查询方案分析
-
如何更快的查询
- 原始信息筛选和关联效率
- 计算处理效率
- 只关注目标所需数据
-
-
关注目标信息
- 列存
-
原始信息筛选效率
- OLAP引擎索引方案
-
原始信息关联
- join方案及优化
-
计算效率
- 向量化
- 执行计划优化:RBO、CBO
-
应用层优化
- 宽表构建
- 提升信息密度:bit化、bitmap
-
查询稳定性
- 熔断、限流、降级
- 元数据管理:指标口径管理、查询生成