数据中心建设实践思路与企业实践 |青训营笔记

104 阅读3分钟

这是我参与「第四届青训营 」笔记创作活动的第17天.

课程回顾

屏幕截图 2022-08-24 124650.jpg

一、企业数据架构

  • 企业整体数据架构:基础引擎、数据集成/生产/服务、开发和治理工具
  • 关键模块及数据流向

    • 数据集成

      • 业务数据收集:数据库变更数据收集(CDC)、业务日志收集(业务数据->数据处理系统)
      • 大数据系统内传输:基于Flink丰富的connector体系 (数据系统内)
    • 数据生产:实时和离线生产pipeline (数据系统内)

    • 数据服务:统一数据服务架构(数据系统->业务系统)

屏幕截图 2022-08-24 124818.jpg

  • 计算/存储引擎:Flink、Spark、ClickHouse、Doris、Kafka、Hive...
  • 数据集成:业务数据收集(数据库CDC、业务日志等)、Flink Connector体系
  • 数据治理:数据质量、数据安全、数据生命周期...
  • 数据开发:大数据开发工具套件、发布运维工具、元数据管理工具...

1、数据集成

业务数据收集

  • (1)Log

屏幕截图 2022-08-24 124924.jpg

  • (2)CDC

屏幕截图 2022-08-24 125010.jpg

系统间同步传输

屏幕截图 2022-08-24 125217.jpg

2、数据生产

离线&实时

屏幕截图 2022-08-24 125328.jpg

  • 生产架构:Lambda架构
  • 实时数仓:数据仓库、数仓分层(ODS、DWD、DWS、APP)...

3、数据服务

屏幕截图 2022-08-24 125431.jpg

  • OLAP引擎:ClickHouse、Doris

    • 列存
    • 索引
    • JOIN:广播、colocate join、bucket join、shuffle join
    • 向量化计算
    • SQL优化:RBO、CBO
    • Bitmap
  • 稳定性:熔断、限流、降级

二、数据中心案例

  • 以房产业务举例说明数据中心建设目标和要求
  • 房产业务介绍:房产服务平台、经纪人、客户
  • 数据中心核心指标分析:供需、过程、结果
  • 数据中心查询要求:查询条件、数据结果、技术要求

房产业务介绍

1、核心数据指标

屏幕截图 2022-08-24 125631.jpg

2、数据查询要求

屏幕截图 2022-08-24 125720.jpg

三、实时数据生产

  • 以房产业务举例说明数据中心建设目标和要求
  • 房产业务介绍:房产服务平台、经纪人、客户
  • 数据中心核心指标分析:供需、过程、结果
  • 数据中心查询要求:查询条件、数据结果、技术要求

1、数据分析

(1)数据产出目标

屏幕截图 2022-08-24 125833.jpg

(2)数据生产可行性

屏幕截图 2022-08-24 125923.jpg

2、计算分析

(1)目标

屏幕截图 2022-08-24 130150.jpg

(2)计算框架——Lambda

屏幕截图 2022-08-24 130236.jpg

  • 数据产出

屏幕截图 2022-08-24 130323.jpg

  • 问题

屏幕截图 2022-08-24 130359.jpg

(3)计算框架-全量计算

屏幕截图 2022-08-24 130459.jpg

  • 问题解决

屏幕截图 2022-08-24 130549.jpg

  • 问题分析

见上图,问题:如何获取全量的原始数据?答:数据湖-实行性相对差、CDC:Log等数据?

(4)计算架构-架构选择

屏幕截图 2022-08-24 130818.jpg

(5)计算难点

  • 全量数据获取-Hybrid Source

屏幕截图 2022-08-24 130939.jpg

  • 准确-处理去重&更新(Retract)

屏幕截图 2022-08-24 131043.jpg

  • 准确-join乱序问题场景

屏幕截图 2022-08-24 131131.jpg

屏幕截图 2022-08-24 131210.jpg

  • join乱序问题解决

屏幕截图 2022-08-24 131305.jpg

屏幕截图 2022-08-24 131319.jpg

  • 计算效率-聚合

屏幕截图 2022-08-24 131412.jpg

  • 效率-Join

屏幕截图 2022-08-24 131459.jpg join算子逻辑

屏幕截图 2022-08-24 131540.jpg

  • 效率-Minibatch Join

屏幕截图 2022-08-24 131715.jpg

(6)数据质量

  • 任务稳定性

屏幕截图 2022-08-24 131836.jpg

  • 数据持续正确性-监控对比

屏幕截图 2022-08-24 131928.jpg

屏幕截图 2022-08-24 132011.jpg

3、数仓建设

屏幕截图 2022-08-24 174852.jpg

(1)数仓

  • 数据组织方案

屏幕截图 2022-08-24 175017.jpg

  • 元数据管理

屏幕截图 2022-08-24 175111.jpg

四、数据服务

  • 整体架构:查询引擎、查询优化和执行、稳定性、元数据
  • 案例查询方案分析

    • 如何更快的查询

      • 原始信息筛选和关联效率
      • 计算处理效率
      • 只关注目标所需数据
  • 关注目标信息

    • 列存
  • 原始信息筛选效率

    • OLAP引擎索引方案
  • 原始信息关联

    • join方案及优化
  • 计算效率

    • 向量化
  • 执行计划优化:RBO、CBO
  • 应用层优化

    • 宽表构建
    • 提升信息密度:bit化、bitmap
  • 查询稳定性

    • 熔断、限流、降级
  • 元数据管理:指标口径管理、查询生成

屏幕截图 2022-08-24 175202.jpg

1、查询快

(1)引擎选择

屏幕截图 2022-08-24 175305.jpg

(2)怎么做

屏幕截图 2022-08-24 175342.jpg

(3)关注目标信息

屏幕截图 2022-08-24 175442.jpg

(4)筛选分区

屏幕截图 2022-08-24 175542.jpg

(5)筛选Primary key 构建

屏幕截图 2022-08-24 175643.jpg

(6)筛选Primary key查找

屏幕截图 2022-08-24 175740.jpg

(7)原始信息关联-IO优化

屏幕截图 2022-08-24 175832.jpg

(8)计算向量化

屏幕截图 2022-08-24 175933.jpg

(9)执行计划

屏幕截图 2022-08-24 180025.jpg

(10)应用优化

屏幕截图 2022-08-24 180148.jpg

(11)宽表构建

屏幕截图 2022-08-24 180243.jpg

(12)提升信息密度-bit化

屏幕截图 2022-08-24 180344.jpg

(13)提升信息密度-bitmap

屏幕截图 2022-08-24 180506.jpg

2、稳定-解决的问题

屏幕截图 2022-08-24 180646.jpg

屏幕截图 2022-08-24 180716.jpg

3、查询-数据管理

屏幕截图 2022-08-24 180806.jpg