「这是我参与2022首次更文挑战的第16天,活动详情查看:2022首次更文挑战」
数仓的作用概括就是数据支持、逻辑沉淀、底层变更通知、问题反馈。
其中分别解释一下就是公共层对模型层进行数据支持,应用层数据沉淀逻辑到公共层展示,底层业务变更/数据源变更主动通知模型层,应用层、公共层问题向底层反馈获取支持。
其中的数仓建设正循环:应用层建设经过逻辑沉淀到公共层建设,再问题反馈接入数据源/数据接入层,继而反馈业务/数据源变更到公共层建设,最后展现数据到应用层建设。
每一层的关系都紧密相连,缺一不可,这样构成了完整的数仓结构。
其中重要的几个定义,第一个指标定义。
指标定义:指将业务单元细分后量化的度量值,它使得业务目标可描述、可度量、可拆解,它是业务和数据的结合,是统计的基础,也是量化效果的重要依据。
原子指标:指面向最细粒度的业务过程的抽象指标,例如:转正量。 衍生指标:指在原子指标基础上增加维度和限定条件等,例如:旺季转正量 符合指标:指各种指标通过加减乘除四则运算计算后得到的指标,例如:实习转正率 = 转正量/实习量
数仓分层关系
dwd,公共层-明细层,也叫公共明细层,和数据源(即业务库)的粒度保持一致,是基于范式建模的业务库表补全维度或拓展属性而形成的维度建模明细表。
dws,公共层-轻度汇总层,也叫公共汇总层,面向最细粒度的分析对象的单主题/跨主题的轻度汇总。
olap,数据应用层-高度汇总层,面向应用分析,对分析对象的多种维度组合的单主题或跨主题的高度汇总。
rpt,数据应用层-报表层,面向应用展示的多种粒度的数据集合。
dim,公共维表,通用维表,如经纪人基本信息、客户基本信息、房屋基本信息、品牌、时间、城市和战区等表。
标签维表,基于公共层数据逻辑加工形成的标签维度。
每一层之间的关系也是紧密相连,缺一不可,如果是从dwd明细层直接到rpt应用输出层的话,也可以实现,但是这样扩展性就会很差,如果对某张维度表进行升级或者插入字段,就会动到很多事实表数据,并影响展示层。所以我们一般是从dw层做数据清洗到dwd明细层,再接入dws轻度汇总层,再到汇总到olap高度汇总层,最后再到展示层。