😂# 数仓
数仓,
是存在大量数据的前提下,包括了etl,调度,建模在内的完整的理论体系。
是对混乱数据进行有序处理的一个理论。
数据仓库建设的目的是为了查询和分析,主要应用于OLAP,支持复杂的分析操作,侧重于决策支持,并且提供直观易懂的查询结果。
数据仓库并不是数据流的最终目的地,而是为了数据到达目的地做的准备,这些准备包含清洗,转义,分类,重组,合并,拆分,统计等。
主要特点:
面向主题:按照一定的主题域进行组织;主题是指用户分析决策时所关心的重点方面。
集成:需要对源数据进行加工与融合,统一与综合; 在加工的过程中必须消除源数据的不一致性,以保证内的信息时关于整个企业的一致的全局信息。(关联关系)
不可修改:数据仓库中的数据并不是最新的,而是来源于其他数据源;数据仓库主要是为决策分析提供数据,涉及的操作主要是数据的查询
与时间有关:处于决策的需要数据仓库中的数据都需要标明时间属性
数仓为什么要分层
实际工作中,我们面对的数据源都是非常复杂的,层级也是相对混乱的。我们想要数据进行有序的流转,并且清洗的表达数据的整个流转。
想让数据体系更加有序,数仓分层就是一个比较有效的数据组织、管理和处理方法。
数据分层的好处是:
- 清晰的数据结构,每层都有自己的作用和职责,使用和维护过程中能够方便理解。
- 复杂问题简化,将复杂问题拆解成多个简单的问题
- 统一数据口径,通过数据分层,提供统一的数据出口
- 减少重复开发,通过开发通用的中间层,可以极大减少重复的计算工作