通过三步调研(业务调研、需求调研、数据调研),划分主题域
业务调研初步确定dw层主题域,
需求调研初步确定应用层主题域,
数据调研,整理现有数据源、数据字典,形成数据调研表,确定每张表所属的业务线,确定ods层数据表的主题域
然后构建总线矩阵,明确业务过程所属主题域,业务过程和维度的关系。维度建模(星型模型、四步建模)。
设计数仓分层架构(ods-dwd-dws-ads),
定制规范(命名规范、模型规范、开发规范、流程规范)。
数据治理(数据质量,数据安全,元数据管理)。
开工ETL/BI,迭代开发。
1.前期业务调研,需求调研,数据调研,技术选型
业务调研:梳理业务流程,构建概念数据模型。同时初步划分DW层主题域;
需求调研:梳理现有数据需求,收集整理过去,现在,将来的数据或BI报表需求,同时初步划分数据仓库APP层主题域。
数据调研:获取每个数据源,整理数据字典,划分每个表的业务线和所属模板,同时初步划分数据仓库ODS层主题域
2.提炼业务模型,总线矩阵,划分主题域
确定主题域:通过对第一步三个阶段的补充,分析,舍弃,整合,抽象,最终确定主题域。主题域是主题的边界,主题是围绕实体凝聚的数据。
提炼总线架构(一致性维度):Kimball提出的数仓建模中有三个关键性概念,总线架构,一致性维度,一致性事实。
构建总线矩阵:以维度位列,以事实为行,来判断每个事实与维度之间的关系。
3.定制规范 命名规范,开发规范,流程规范
4.数仓架构分层
5.选择合适的数据模型
合适的数据模型更利于数据存储,计算,开发,安全,以及数据查询的效率,更能体现数仓的价值
6.定制合理的数据治理方案
数据治理:
确保数据的完整性,准确性,实时性,一致性
主键监控,表数据量,波动监控,重要字段的非空监控,重要枚举字段的离散值监控,指标值波动监控,业务规则监控。
元数据管理:
对技术元数据与业务数据的存储与使用。
数据审计:数据安全与数据权限
总结
一句话总结:通过三步调研(业务调研、需求调研、数据调研),划分主题域,确定主题。然后构建总线矩阵,维度建模(星型模型、四步建模)。设计数仓分层架构(ods-dwd-dws-ads),定制规范(命名规范、模型规范、开发规范、流程规范)。数据治理(数据质量,数据安全,元数据管理)。开工ETL/BI,迭代开发。