数据仓库的一些基本开发规范

185 阅读2分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第6天 juejin.cn/post/716729…

分层规范:

ODS:原始数据层,主要包含业务库RDBMS数据,或其他服务器采集后进行清洗的数据。

DWD:数据明细层,主要做ODS层数据清洗,主题相关的维度表、事实表开发等。

DWS:主要做DWD层数据的轻量级汇总、一些重点数据的周期性快照保留等。

ADS:数据服务层,面向应用的层级,包括BI及画像等等。

更新方式命名规范:

增量:使用i尾缀

全量:使用f尾缀

表名规则:

主题域规则:

数据治理原则

数据治理是企业数据建设必不可少的一个环节。

好的数据治理体系可以盘活整条数据链路,最大化保障企业数据的采集、存储、计算和使用过程的可控和可追溯。

举个例子:

年底了,企业财务管理员小张需要统计公司的金融财务情况。忙碌了一年,公司老板亟需知道公司目前的运营状况。

公司目前有哪些财产?

这些财产从哪里来?用到了哪些地方?

是否所有财产的使用均符合规范和制度?

幸好小张年初已经制定了一套管理标准。每笔财产的出入都有记录且严格把控使用情况,过程可追溯可审查。

由此可见数据治理的核心工作: 在企业的数据建设进程中,保障企业的数据资产得到正确有效地管理。

一般来说,数据从外部或者内部产生后,经过大数据手段处理,流转到不同的业务端,为企业的上层应用提供数据赋能。

  1. 我们先做一些类似数据同步的工作将数据放入到大数据系统中
  2. 数据进来后需要管理和存储,即参考建模理论和实际场景建设数仓
  3. 经过主题规划、维度确定、标签计算输出等步骤处理
  4. 数据输出到报表、应用端使用

整体流程数据治理体系将全程监管。要确认进出系统的数据质量怎么样?是否可转化数据资产?数据血缘是否可追溯、数据安全等问题。