实时数据中心建设思路与企业实践|青训营笔记

135 阅读2分钟

01.企业数据架构

  • 企业整体数据架构:基础引擎、数据集成/生产/服务、开发和治理工具

image.png

  • 关键模块及数据流向

    • 数据集成

      • 业务数据收集:数据库变更数据收集(CDC)、业务日志收集(业务数据->数据处理系统)

      • 大数据系统内传输:基于Flink丰富的connector体系 (数据系统内)

    • 数据生产:实时和离线生产pipeline (数据系统内)

    • 数据服务:统一数据服务架构(数据系统->业务系统)

image.png

02.数据中心案例

  • 房产业务介绍:房产服务平台、经纪人、客户

image.png

  • 数据中心核心指标分析:供需、过程、结果
  • 数据中心查询要求:查询条件、数据结果、技术要求

03.实时数据生产

  • 数据分析-数据产出目标

image.png

  • 数据分析-数据生产可行性

image.png

  • 计算分析-目标 -开发效率:较快满足用户的需要

    • 资源成本:计算效率高
    • 数据质量:准确无误、数据实时
  • 计算分析-计算架构-Lambda

image.png

  • 计算分析-Lambda架构-数据产出

image.png

  • 计算分析-Lambda架构-问题

image.png

  • 计算分析-计算架构-全量计算

image.png

  • 计算分析-全量计算架构-问题解决

image.png

  • 计算分析-计算架构-全量计算问题分析

image.png

  • 计算分析-计算架构-架构选择

image.png

计算难点解决

  • 全量数据获取:hybrid source

  • 精确计算

    • 去重&更新处理:基于retract机制
    • 乱序问题解决:流join乱序问题方案
  • 计算效率

    • MiniBatch-聚合计算
    • MiniBatch-join
  • 数据质量

    • 任务稳定性:消费LAG、JVM、资源、算子
    • 数据正确性:和离线比对、趋势比对、异常值占比
  • 实时数仓

    • 数据分层:数据复用,减少重复开发
    • 数据管理:格式、元数据

04.数据服务

整体架构:查询引擎、查询优化和执行、稳定性、元数据

image.png

  • 查询快-引擎选择

image.png

  • 查询快-筛选-分区

image.png

  • 查询快-筛选-primary key构建

image.png

  • 查询快-筛选- primary key查找

image.png

  • 查询快-原始信息关联-IO优化

image.png

  • 更快的查询-计算向量化

image.png

  • 查询快-执行计划

image.png

  • 查询快-应用优化

    • 原始信息关联
    • 计算复杂度
  • 查询快-应用-宽表构建

image.png

  • 查询快-提升信息密度-bit4化

image.png

  • 查询快-提升信息密度-bitmap

image.png

  • 查询-数据管理

image.png