数据仓库的发展历程
- 数据仓库概念最早可能要追溯到20世纪70年代,希望提供一种架构服务将处理系统和分析处理分为不同的层次。
- 20世纪80年代,建立TA2(Technical Archiecture2)规范,明确规定了分析系统的四个组成部分:数据获取、数据访问、目录、用户服务
- 1988年,IBM第一次体术信息仓库的概念:一个结构化的环境,能支持最终用户管理其全部的业务,并支持信息技术部门保证数据质量;抽象出基本组件:数据抽取、转换、有效性验证、加载、cube开发等,基本明确了数据仓库的基本原理、框架结构,以及分析系统的主要原则。
- 1991年,Bill Inmon出版的《Building the Data Warehouse》提出了更具体的数据仓库原则:
- 数据仓库是面向主题的
- 集成的
- 包含历史的
- 不可更新的
- 面向决策支持的
- 面向全企业的
- 最明细的数据存储
- 数据快照式的数据获取
Ralph Kimball 出版《The Data Warehouse Toolkit》,其主张自下而上的数据仓库,极力推崇建立数据集市,任务数据仓库是企业内所有数据集市的集合,信息总是被存储在多维模型中。
两种思路和观点在世纪的操作中都很难成功的完成交付,直至最终Bill Inmon提出了新的BI架构CIF(Corporation information factory),把数据集市包含了进来。CIF的核心是将数仓架构划分为不同的层次以满足不同的场景需求,比如常见的ODS,DW,DM等,每层根据实际场景采用不同的建设方案,改思路也是目前数据仓库建设的架构指南,但自上而下还是自下而上的进行数据仓库建设,并未统一。
但整体上的数据仓库架构图分为四层:ODS、DWD、DWS、ADS,如下图所示: