《数据仓库设计》笔记day02

185 阅读2分钟

数据仓库的发展历程

  1. 数据仓库概念最早可能要追溯到20世纪70年代,希望提供一种架构服务将处理系统和分析处理分为不同的层次。
  2. 20世纪80年代,建立TA2(Technical Archiecture2)规范,明确规定了分析系统的四个组成部分:数据获取、数据访问、目录、用户服务
  3. 1988年,IBM第一次体术信息仓库的概念:一个结构化的环境,能支持最终用户管理其全部的业务,并支持信息技术部门保证数据质量;抽象出基本组件:数据抽取、转换、有效性验证、加载、cube开发等,基本明确了数据仓库的基本原理、框架结构,以及分析系统的主要原则。
  4. 1991年,Bill Inmon出版的《Building the Data Warehouse》提出了更具体的数据仓库原则:
  • 数据仓库是面向主题的
  • 集成的
  • 包含历史的
  • 不可更新的
  • 面向决策支持的
  • 面向全企业的
  • 最明细的数据存储
  • 数据快照式的数据获取
Bill Inmon认为数据仓库是一个整体的商业智能系统的一部分,一家企业只有一个数据仓库,数据集市来源出自数据仓库,在数据仓库中,信息存储符合第三范式。

Ralph Kimball 出版《The Data Warehouse Toolkit》,其主张自下而上的数据仓库,极力推崇建立数据集市,任务数据仓库是企业内所有数据集市的集合,信息总是被存储在多维模型中。

两种思路和观点在世纪的操作中都很难成功的完成交付,直至最终Bill Inmon提出了新的BI架构CIF(Corporation information factory),把数据集市包含了进来。CIF的核心是将数仓架构划分为不同的层次以满足不同的场景需求,比如常见的ODS,DW,DM等,每层根据实际场景采用不同的建设方案,改思路也是目前数据仓库建设的架构指南,但自上而下还是自下而上的进行数据仓库建设,并未统一。  

但整体上的数据仓库架构图分为四层:ODS、DWD、DWS、ADS,如下图所示: