[数据中心建设实践思路与企业实践]课堂笔记

这是我参与「第四届青训营」笔记创作活动的第1天，
前置知识基础： 大数据生产（Flink、Spark等）、存储框架（Hadoop,Hbase,数据湖等）

数据中心建设优化目标： 在实际生产环境下使用Flink框架达到业务提出的对于数据的需求

收获

1. 平台：企业大数据平台整体架构 微信截图_20220817203336.png 数据集成-业务数据收集-CDC
把需要的数据从业务系统收集到大数据系统数据集成-系统间同步传输 Hive数据库离线数据导入到kafka做离线数据，形成企业数据生产的链路，实时的数据链路，离线的数据链路

2. 数据中心案例
房产业务介绍：微信截图_20220817211153.png 房产服务平台功能：勘测房源、维护客户、打电话跟进客户、及时地约客户带看、及时成交。

指标构建：

供需（房源和客户的数量关系）

过程（这一服务流程进行的质量）

结果（成交量）

房产数据中心-数据查询要求
以房地产业务系统来阐释数据中心建设的目标和要求：数据中心看板查询条件：可以看到实践范围，业务类型（租赁/买卖/全部）数据展示：查询条件下每个经纪人的汇总数据，能够实现对于明细数据的进一步调研
数据中心查询要求：查询条件，查询结果，数据要求

3. 服务：生产的数据如何更好的服务业务 数据中心建设实践思路.png 数据分析-数据产出目标

根据日期及业务类型（买卖、租赁）查询经纪人汇总数据，目标数据产出粒度：经纪人+业务日期+业务类型。

计算分析-目标

开发效率：较快满足用户的需要
资源成本：计算效率高
数据质量：准确无误、数据实时

计算架构-lambda 微信截图_20220817212317.png

目标	Lambda架构	全量计算架构
开发运维效率	效率低：存在实时离线开发任务和merge逻辑	效率高：只存在一套实时任务
数据质量	实时、准确	实时、准确
资源效率	计算资源占用高：离线全量（例行任务）+实时增量	状态存储成本相对高：全量（首次冷启动）+增量

全量计算架构的优势：能够在启动时进行实时增量的补充

微信截图_20220817213732.png

计算难点-准确-处理去重&更新（Retract）
计算难点-准确-join乱序问题场景

增加Reorder算子，根据状态语义，这样的处理不太明显
聚合函数批式处理，本质是延迟换吞吐
关联出发：左右流互相关联出发，回撤来源（left join距离）：

计算难点-计算效率- 聚合聚合函数批处理，本质是加大吞吐量

数据质量监测维度

数仓建设：数据复用，减少重复开发
APP层构建一个宽表，对整体的生产方案进行集成
DWM指标层Key/Val写到kafka的topic里面来数仓-元数据管理：把生产的数据维护到元数据中心中，在数据管理的角度，可以避免重复开发，另外一方面在开发的角度利用元数据，进行一个免DDL的操作，进行数据资产的管理和查询。

4 数据服务架构

查询优化分析

对于不同的信息进行不同的注意力权重，进行差异化的信息关注
原始信息关联，采用单表筛选的效率问题及信息关联效率问题

执行计划优化： RBO（基于规则的优化）；CBO（基于代价的优化）
应用层优化： 宽表构建；提升信息密度，采用bit化/bitmap
元数据管理： 指标口径管理，生成
查询稳定性： 熔断，限流，降级

个人思考总结

本次课程学习到了企业级的数据中心构建的基础架构，以及数据中间建设实践的一些指标，理解了业务和数据之间的映射关系，以及数据是怎样通过clickhouse doris 这些数据库进行连接和处理的。

业务数据和闭环

数据中心建设实践思路与企业实践 | 青训营笔记

个人思考总结