数仓-数仓0-1建设的过程

195 阅读3分钟

通过三步调研(业务调研、需求调研、数据调研),划分主题域

业务调研初步确定dw层主题域,

需求调研初步确定应用层主题域,

数据调研,整理现有数据源、数据字典,形成数据调研表,确定每张表所属的业务线,确定ods层数据表的主题域

然后构建总线矩阵,明确业务过程所属主题域,业务过程和维度的关系。维度建模(星型模型、四步建模)。

设计数仓分层架构(ods-dwd-dws-ads),

定制规范(命名规范、模型规范、开发规范、流程规范)。

数据治理(数据质量,数据安全,元数据管理)。

开工ETL/BI,迭代开发。

1.前期业务调研,需求调研,数据调研,技术选型

业务调研:梳理业务流程,构建概念数据模型。同时初步划分DW层主题域;

需求调研:梳理现有数据需求,收集整理过去,现在,将来的数据或BI报表需求,同时初步划分数据仓库APP层主题域。

数据调研:获取每个数据源,整理数据字典,划分每个表的业务线和所属模板,同时初步划分数据仓库ODS层主题域

2.提炼业务模型,总线矩阵,划分主题域

确定主题域:通过对第一步三个阶段的补充,分析,舍弃,整合,抽象,最终确定主题域。主题域是主题的边界,主题是围绕实体凝聚的数据。

提炼总线架构(一致性维度):Kimball提出的数仓建模中有三个关键性概念,总线架构,一致性维度,一致性事实。

构建总线矩阵:以维度位列,以事实为行,来判断每个事实与维度之间的关系。

3.定制规范 命名规范,开发规范,流程规范

4.数仓架构分层

5.选择合适的数据模型

合适的数据模型更利于数据存储,计算,开发,安全,以及数据查询的效率,更能体现数仓的价值

6.定制合理的数据治理方案

数据治理:

确保数据的完整性,准确性,实时性,一致性

主键监控,表数据量,波动监控,重要字段的非空监控,重要枚举字段的离散值监控,指标值波动监控,业务规则监控。

元数据管理:

对技术元数据与业务数据的存储与使用。

数据审计:数据安全与数据权限

总结

一句话总结:通过三步调研(业务调研、需求调研、数据调研),划分主题域,确定主题。然后构建总线矩阵,维度建模(星型模型、四步建模)。设计数仓分层架构(ods-dwd-dws-ads),定制规范(命名规范、模型规范、开发规范、流程规范)。数据治理(数据质量,数据安全,元数据管理)。开工ETL/BI,迭代开发。