数据中心建设实践思路与企业实践 | 青训营笔记

112 阅读4分钟

[数据中心建设实践思路与企业实践]课堂笔记

这是我参与「第四届青训营 」笔记创作活动的第1天,
前置知识基础: 大数据生产(Flink、Spark等)、存储框架(Hadoop,Hbase,数据湖等)

数据中心建设优化目标: 在实际生产环境下使用Flink框架达到业务提出的对于数据的需求

  • 收获

1. 平台:企业大数据平台整体架构 微信截图_20220817203336.png 数据集成-业务数据收集-CDC
把需要的数据从业务系统收集到大数据系统 数据集成-系统间同步传输 Hive数据库离线数据导入到kafka做离线数据,形成企业数据生产的链路,实时的数据链路,离线的数据链路

2. 数据中心案例
房产业务介绍: 微信截图_20220817211153.png 房产服务平台功能:勘测房源、维护客户、打电话跟进客户、及时地约客户带看、及时成交。

指标构建:

供需(房源和客户的数量关系)

过程(这一服务流程进行的质量)

结果(成交量)

房产数据中心-数据查询要求
以房地产业务系统来阐释数据中心建设的目标和要求: 数据中心看板查询条件: 可以看到实践范围,业务类型(租赁/买卖/全部) 数据展示: 查询条件下每个经纪人的汇总数据,能够实现对于明细数据的进一步调研
数据中心查询要求:查询条件,查询结果,数据要求

3. 服务:生产的数据如何更好的服务业务 数据中心建设实践思路.png 数据分析-数据产出目标

根据日期及业务类型(买卖、租赁)查询经纪人汇总数据,目标数据产出粒度:经纪人+业务日期+业务类型。

计算分析-目标

  • 开发效率:较快满足用户的需要
  • 资源成本:计算效率高
  • 数据质量:准确无误、数据实时

计算架构-lambda 微信截图_20220817212317.png

目标Lambda架构全量计算架构
开发运维效率效率低:存在实时离线开发任务和merge逻辑效率高:只存在一套实时任务
数据质量实时、准确实时、准确
资源效率计算资源占用高:离线全量(例行任务)+实时增量状态存储成本相对高:全量(首次冷启动)+增量

全量计算架构的优势:能够在启动时进行实时增量的补充

微信截图_20220817213732.png

  • 计算难点-准确-处理去重&更新(Retract)
  • 计算难点-准确-join乱序问题场景
  1. 增加Reorder算子,根据状态语义,这样的处理不太明显
  2. 聚合函数批式处理,本质是延迟换吞吐
  3. 关联出发:左右流互相关联出发,回撤来源(left join距离):

计算难点-计算效率- 聚合 聚合函数批处理,本质是加大吞吐量

数据质量监测维度

数仓建设:数据复用,减少重复开发
APP层构建一个宽表,对整体的生产方案进行集成
DWM指标层Key/Val写到kafka的topic里面来 数仓-元数据管理:把生产的数据维护到元数据中心中,在数据管理的角度,可以避免重复开发,另外一方面在开发的角度利用元数据,进行一个免DDL的操作,进行数据资产的管理和查询。

4 数据服务架构

image.png

查询优化分析

  • 对于不同的信息进行不同的注意力权重,进行差异化的信息关注
  • 原始信息关联,采用单表筛选的效率问题及信息关联效率问题

执行计划优化: RBO(基于规则的优化);CBO(基于代价的优化)
应用层优化: 宽表构建;提升信息密度,采用bit化/bitmap
元数据管理: 指标口径管理,生成
查询稳定性: 熔断,限流,降级

个人思考总结

本次课程学习到了企业级的数据中心构建的基础架构,以及数据中间建设实践的一些指标,理解了业务和数据之间的映射关系,以及数据是怎样通过clickhouse doris 这些数据库进行连接和处理的。

image.png

业务数据和闭环