实时数据中心建设思路与企业实践|青训营笔记本次笔记重点内容企业数据架构数据中心案例实时数据生产数据服务企业数据

这是我参与「第四届青训营」笔记创作活动的第28天

本次笔记重点内容

企业数据架构
数据中心案例
实时数据生产
数据服务

企业数据架构

计算/存储引擎：Flink、Spark、ClickHouse、Doris、Kafka、Hive...
数据集成：业务数据收集(数据库CDC、业务日志等)、Flink Connector体系
数据治理：数据质量、数据安全、数据生命周期...
数据开发：大数据开发工具套件、发布运维工具、元数据管理工具...

数据集成

业务数据收集

CDC

数据流向：业务数据库->数据系统

Log

数据流向：client/server log ->数据系统

系统间数据同步传输

数据生成

离线 & 实时

数据流向：原始数据->数据处理pipeline

数据服务

数据流向：数据系统->业务系统

数据中心案例

以房产业务举例说明数据中心建设目标和要求
房产业务介绍：房产服务平台、经纪人、客户
数据中心核心指标分析：供需、过程、结果
数据中心查询要求：查询条件（时间范围、业务类型）、数据结果、技术要求（数据是实时秒级）

实时数据生产

计算分析

目标

开发效率：较快满足用户需要
资源成本：计算效率高
数据质量：准确无误、实时

计算架构——Lambda VS 全量计算

计算难点

全量数据获取：hybrid source
精确计算
- 去重&更新处理：基于retract机制
- 乱序问题解决：流join乱序问题方案
计算效率
- MiniBatch-聚合计算：聚合函数批式处理，本质是延迟换吞吐
- MiniBatch-join

数仓建设

数据复用，减少重复开发

数据服务

查询快——引擎选择

点查：根据一个用户查询他的指标，不用分析，结果直接拿来展示即可
分析式：根据查询条件（业务日期、类型）

如何更快的查询

原始信息筛选和关联效率：单表筛选够不够快，信息关联够不够快
计算处理效率
只关注目标所需数据：比如只查询带看量

计算向量化

CPU支持向量化指令，单指令多数据处理

应用优化

原始信息关联

Local Join
预关联

计算复杂度

预计算
提升信息密度

宽表扩建

目标是减少查询现join，生产侧把相同粒度（如经纪人）指标及相关的维度数据关联成宽表

实时数据中心建设思路与企业实践|青训营笔记

这是我参与「第四届青训营 」笔记创作活动的第28天

本次笔记重点内容

企业数据架构

数据集成

业务数据收集

CDC

Log

系统间数据同步传输

数据生成

离线 & 实时

数据服务

数据中心案例

实时数据生产

计算分析

目标

计算架构——Lambda VS 全量计算

计算难点

数仓建设

数据服务

查询快——引擎选择

如何更快的查询

计算向量化

应用优化

原始信息关联

计算复杂度

宽表扩建

这是我参与「第四届青训营」笔记创作活动的第28天