数仓建设过程

225 阅读2分钟

「这是我参与2022首次更文挑战的第18天,活动详情查看:2022首次更文挑战

本文详细介绍如何从提出需求到模型交付,即数模建设实战的整体过程。

首先是承接需求,这些需求可以来自业务方、数仓设计者、决策者等等,作出需求分析的时候,应该遵循几个原则,首先摘取业务过程,这个业务过程可以由六要素组成,包括“什么、谁、怎么样、什么地方、什么时候、干什么”,也可以是一件核心事件,比如某一阶段的市场销售营业增长情况,这个核心事件就是销售事件。

如果是比较明确的数据需求输入,可以不通过需求评审直接到需求分析,需求评审的时候最好是全员参加,包括产品、开发、测试和提出需求的一方。

拆解需求是最重要的一步,自上而下分别是指标拆解,包括业务标签、时间周期、业务过程、统计粒度、维度矩阵等等,业务标签如果事先已经在库里面了,可以不考虑。如果不在,就要在公共模型dim标签库中建设。业务过程需要判断在公共模型中是否已经有覆盖到了,如果没有的话就要通过业务系统调研将问题反馈给业务方,从而建设公共模型覆盖业务过程,这个过程也可以是前置已完成的,就是在提出需求的时候经过需求分析,直接到业务系统侧先制定公共模型。其他的几项就是比较常规的设计就不一一说明。

下面到了模型建设的一步。公共模型dwd建设,公共模型dim标签库建设,公共模型dws建设,再到应用层rpt建设,应用层olap建设。在公共模型建设前,需要确定度量指标及最细粒度。在应用层展示的时候,要确定输出指标,包括时间指标、主题指标、度量指标等。

最后到模型交付步骤,这里需要先规范检测,包括建表名称规范,字段名称规范,根据权限配置生命周期管理,到rpt表的输出交付使用。