实时数据中心建设思路与企业实践|青训营笔记

113 阅读2分钟

这是我参与「第四届青训营 」笔记创作活动的第28天

本次笔记重点内容

  1. 企业数据架构
  2. 数据中心案例
  3. 实时数据生产
  4. 数据服务

企业数据架构

  • 计算/存储引擎:Flink、Spark、ClickHouse、Doris、Kafka、Hive...
  • 数据集成:业务数据收集(数据库CDC、业务日志等)、Flink Connector体系
  • 数据治理:数据质量、数据安全、数据生命周期...
  • 数据开发:大数据开发工具套件、发布运维工具、元数据管理工具...

image.png

数据集成

业务数据收集

CDC

数据流向:业务数据库->数据系统

Log

数据流向:client/server log ->数据系统

image.png

系统间数据同步传输

image.png

数据生成

离线 & 实时

数据流向:原始数据->数据处理pipeline

数据服务

image.png

数据流向:数据系统->业务系统

数据中心案例

  • 以房产业务举例说明数据中心建设目标和要求
  • 房产业务介绍:房产服务平台、经纪人、客户
  • 数据中心核心指标分析:供需、过程、结果
  • 数据中心查询要求:查询条件(时间范围、业务类型)、数据结果、技术要求(数据是实时秒级)

实时数据生产

计算分析

目标

  • 开发效率:较快满足用户需要
  • 资源成本:计算效率高
  • 数据质量:准确无误、实时

计算架构——Lambda VS 全量计算

image.png

计算难点

  • 全量数据获取:hybrid source image.png
  • 精确计算
    • 去重&更新处理:基于retract机制 image.png
    • 乱序问题解决:流join乱序问题方案 image.png
  • 计算效率
    • MiniBatch-聚合计算:聚合函数批式处理,本质是延迟换吞吐
    • MiniBatch-join
数仓建设

数据复用,减少重复开发

数据服务

image.png

查询快——引擎选择

image.png

  • 点查:根据一个用户查询他的指标,不用分析,结果直接拿来展示即可
  • 分析式:根据查询条件(业务日期、类型)

如何更快的查询

  • 原始信息筛选和关联效率:单表筛选够不够快,信息关联够不够快
  • 计算处理效率
  • 只关注目标所需数据:比如只查询带看量

计算向量化

CPU支持向量化指令,单指令多数据处理

应用优化

原始信息关联

  • Local Join
  • 预关联

计算复杂度

  • 预计算
  • 提升信息密度

宽表扩建

目标是减少查询现join,生产侧把相同粒度(如经纪人)指标及相关的维度数据关联成宽表