本文已参与「新人创作礼」活动,一起开启掘金创作之路。
学习笔记《奈学教育大数据架构师训练营》 本文介绍大数据中台架构(大数据中台演进三阶段)、数据仓库建模理论以及如何构建维度模型方法。
大数据中台架构
大数据中台演进三阶段:
定位和价值:
- 降低数据使用门槛
- 提升决策利用效率
- 数据驱动业务增长
第一阶段:
- 定位:快速描述业务事实,提供数据分析的原材料
- 价值:为决策提供支持,评估业务效果
- 形式:数据提取->数据计算->数据仓库建设->指标体系->报表
第二阶段:
- 定位:波动根因分析
- 价值:辅助/诊断业务
- 形式:专题分析->分析框架->分析工具->多维分析模型
第三阶段:
- 定位:数据化运营实践落地
- 价值:业务数据统计分析->数据驱动运营闭环->良性循环
- 形式:分析报告
大数据仓库中台建设目标:
- 响应:监视事件计量标准,与历史数据相关联,制定及时的应对策略
- 分析:分析盈利价值链,内部运营的状况和风险,外部市场变化
- 决策:大数据中找出价值信息,对管理和分析人员精准及时的报告
- 计划:预测和趋势分析,感知风险
大数据仓库中台建设实现功能:
- 逻辑分层:数据采集层->原始数据层->数据仓库层->数据集市层->数据应用层
- 数仓规范:开发标准,命名规范,开放的数据存储、建模、计算能力
- 主题域划分:一致性维度与事实;业务数据矩阵(明确各业务分析的主题模块、业务过程所属的数据域)
- 数据建模:构建维度和事实总线矩阵,维度和事实模型设计;明确统计指标,指标结果表设计;维度总线矩阵(明确维度和业务过程之间的关系)
- 数据治理:元数据管理,数据安全,数据治理,数据生命周期管理
- 智能分析:数据挖掘(精细化运营、竞对抓取分析、商业广告),实时预测分析,多维根因分析
数据仓库建模
事实表
又叫事实数据表,主要特点是含有大量的数据,并且这些数据是可以汇总,并被记录的。
表格里存储了能体现实际数据或详细数值,一般由维度编码和事实数据组成。事实表作为数据仓库维度建模的核心,紧紧围绕着业务过程进行设计。
事实数据表不应该包含描述性的信息,也不应该包含除数字度量字段及使事实与纬度表中对应项的相关索引字段之外的任何数据。
事实表数据列组成部分:
- 键值列
- 度量值(分为可以累计的度量值,非累计的度量值)
事实表分类:
- 事务型事实表(每个事务或事件产生一行数据)
- 周期型快照事实表(保留固定时间间隔的数据)
- 累积型快照事实表(用于跟踪业务事实的变化)
维度表
数据仓库中的表,其条目描述事实数据表中的数据。
表格里存放了具有独立属性和层次结构的数据,一般由维度编码和对应的维度说明组成。
维度表可以看作是用户来分析数据的窗口,纬度表中包含事实数据表中事实记录的特性,有些特性提供描述性信息,有些特性指定如何汇总事实数据表数据,以便为分析者提供有用的信息,维度表包含帮助汇总数据的特性的层次结构。
逻辑分层
- ODS(操作数据层,Operational Data Store):将原始数据几乎无处理地存放在数据仓库系统中,看数据量和存储预算决定保留时间
- DM(Data Warehouse)/CDM(数据公共层,Common Dimenions Model):包括DIM、DWD、DWM、DWS,采取更多的宽表化手段构建公共指标数据层,提升公共指标的复用性,减少重复加工
- DIM(维表,Dimension):以维度作为建模驱动
- DWD(明细事实表,Data Warehouse Detail):以业务过程作为建模驱动,基于每个具体的业务过程特点,构建最细粒度的明细事实表
- DWM(轻度汇总层,Data WareHouse Middle)
- DM(数据集市/宽表,Data Market)/DWS(汇总数据层,Data Warehouse Summary):以分析的主题对象作为建模驱动
- ADS(应用数据层,Application Data Store):存放数据产品个性化的统计指标数据
粒度
粒度就是业务流程中对度量的单位,比如商品是按件记录度量,还是按批记录度量。
度量
度量是业务流程节点上的一个数值。比如销量,价格,成本等等。
宽表
通常是指业务主题相关的指标、维度、主题属性关联在一起的一张数据库表。
逻辑分层(业务架构)
数仓数据分层好处:
- 【易维护】高效的数据组织形式,清洗和过滤,规范化,血缘追踪
- 【高性能】时间价值,数据集合,维度汇总,查询效率
- 【简单化】集成价值,多维度数据整合,多角度多层次的数据分析
- 【历史性】历史数据,回溯历史,预测未来
数据建模
DWD层需构建维度模型:选择业务过程→声明粒度→确认维度→确认事实