数仓建设之路

182 阅读2分钟

「这是我参与2022首次更文挑战的第17天,活动详情查看:2022首次更文挑战

先来说一说数仓发展史,针对不同的业务发展、企业规模和企业目标,数仓建设之路都是有所不同的,那么就简单介绍一条常规的发展之路。开始一定是从各个业务现自建数仓规则开始,这时候没有模版式的规则,没有固定形式和建模流程,所以会比较随意,数据混乱,不易构建。到了二阶段随着人员反馈、业务驱动和市场调研的开始,逐渐推动规范化建设但此时执行还不够彻底,将会导致多模型并存,可能会更加没有章法。要解决这一切,必须建立一套统一可落地执行的标准化建设,构建整体可行性数仓。并且在完成数仓标准化建设的基础上,达到部分自动化能力,完成自动化建设后,逐步研讨智能化。

下面着重介绍一下数仓标准化的过程。

从我们的数据来源包括业务数据、埋点数据、文档上传、其他形式的数据积累,这些数据传入到接入层以后作为ODS原始数据。然后数据经过轻度清洗和汇总,得到dwd数据明细层和dws轻度汇总层的数据,在这一阶段我们要建立符合业务过程的事实表和维度表,划分主题,这一步至关重要,这步划分的不好将会影响数据展示和数据的统计,也会对后续数据扩展性产生阻碍。这一层还涉及到公共维表和标签维表。在上一篇都有介绍过。

下面就到了应用层,应用层可以有很多形式比如各种业务场景下的数据展现,或者是为某一次报告的数据汇总展示、或者其他风控等等情景的数据展示。最后是展现层,包括api输出、看板、视图等等。

在数仓标准化建设的整个过程中还包括了数据治理和任务监控,详细包括命名规范治理、代码规范治理、链路依赖治理、权限开放治理、任务SLA治理、模型效果评估以及数据资产监控等等。