数字化转型的引擎:揭秘数据仓库的核心作用与价值

70 阅读10分钟

"数据仓库" 这个名词在企业数字化转型中多次被提及,那么它是什么呢?它能帮助企业解决什么问题?本文将对数据仓库名词定义进行解释,并阐述它在企业数字化转型中建设的必要性。

数据仓库

数据仓库模型及架构

数据仓库模型及架构

数据仓库是什么

数据仓库之父比尔·恩门(Bill Inmon)在 1991 年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受,数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。

数据仓库是一个过程而不是一个项目;数据仓库是一个环境,而不是一件产品。数据仓库提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或不能得到。数据仓库技术是为了有效的把操作形数据集成到统一的环境中以提供决策型数据访问,的各种技术和模块的总称。所做的一切都是为了让用户更快更方便查询所需要的信息,提供决策支持。

数据仓库的特点

1、面向主题

操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。

面向多个主题域

面向多个主题域

2、集成的

数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。

使用ETL工具对分散的数据进行抽取、转换、加载

使用ETL工具对分散的数据进行抽取、转换、加载

3、相对稳定的

数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。

4、反映历史变化

数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

数据仓库的组成

1、数据仓库数据库

数据仓库的数据库是整个数据仓库环境的核心,是数据存放的地方和提供对数据检索的支持。相对于操纵型数据库来说其突出的特点是对海量数据的支持和快速的检索技术。分析型数据仓库是一种专门用于分析数据的数据仓库,它通常采用分布式文件系统(Hadoop)或列式存储数据库(ClickHouse、Vertica 等),适用于大数据分析和挖掘、商业智能(BI)等应用。

2、数据抽取工具

数据抽取工具把数据从各种各样的存储方式中拿出来,进行必要的转化、整理,再存放到数据仓库内。对各种不同数据存储方式的访问能力是数据抽取工具的关键,应能生成 COBOL 程序、MVS 作业控制语言(JCL)、UNIX 脚本、和 SQL 语句等,以访问不同的数据。数据转换都包括,删除对决策应用没有意义的数据段;转换到统一的数据名称和定义;计算统计和衍生数据;给缺值数据赋给缺省值;把不同的数据定义方式统一。

kettle

kettle

3、元数据

元数据是描述数据仓库内数据的结构和建立方法的数据。可将其按用途的不同分为两类,技术元数据和商业元数据。

技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库是用的数据。包括:数据源信息;数据转换的描述;数据仓库内对象和数据结构的定义;数据清理和数据更新时用的规则;源数据到目的数据的映射;用户访问权限,数据备份历史记录,数据导入历史记录,信息发布历史记录等。

商业元数据从商业业务的角度描述了数据仓库中的数据。包括:业务主题的描述,包含的数据、查询、报表;

元数据为访问数据仓库提供了一个信息目录(informationdirectory),这个目录全面描述了数据仓库中都有什么数据、这些数据怎么得到的、和怎么访问这些数据。是数据仓库运行和维护的中心,数据仓库服务器利用他来存贮和更新数据,用户通过他来了解和访问数据。

4、访问工具

为用户访问数据仓库提供手段。有数据查询和报表工具;应用开发工具;经理信息系统(EIS)工具;联机分析处理(OLAP)工具;数据挖掘工具。

5、数据集市(Data Marts)

数据集市

数据集市

为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(subjectarea)。在数据仓库的实施过程中往往可以从一个部门的数据集市着手,以后再用几个数据集市组成一个完整的数据仓库。需要注意的就是再实施不同的数据集市时,同一含义的字段定义一定要相容,这样再以后实施数据仓库时才不会造成大麻烦。

数据仓库管理:安全和特权管理;跟踪数据的更新;数据质量检查;管理和更新元数据;审计和报告数据仓库的使用和状态;删除数据;复制、分割和分发数据;备份和恢复;存储管理。

信息发布系统:把数据仓库中的数据或其他相关的数据发送给不同的地点或用户。基于 Web 的信息发布系统是对付多用户访问的最有效方法。

数据仓库的步骤

1、数据仓库的设计步骤

1)选择合适的主题(所要解决问题的领域)。

2)明确定义 fact 表。

3)确定和确认维。

4)choosing the facts。

5)计算并存储 fact 表中的衍生数据段。

6)rounding out the dimension tables。

7)choosing the duration of the database。

8)the need to tracks lowly changing dimensions。

9)确定查询优先级和查询模式。

2、数据仓库的建立步骤

1)收集和分析业务需求。

2)建立数据模型和数据仓库的物理设计。

3)定义数据源。

4)选择数据仓库技术和平台。

5)从操作型数据库中抽取、净化、和转换数据到数据仓库。

6)选择访问和报表工具。

7)选择数据库连接软件。

8)选择数据分析和数据展示软件。

  1. 更新数据仓库 。

数据仓库和数据集市

有关决策支持型数据库的数据集市是面向企业中的某个部门或是项目小组的。一些专家顾问将数据集市的建造描述为建立数据仓库全过程中的一步。首先,一个储存企业全部信息的数据仓库被创建,其中,数据均具备有组织的、一致的、不变的格式。数据集市随后被创立,其目的是为不同部门提供他们所需要的那部分信息。数据仓库聚集了所有详细的信息,而数据集市中的数据则是针对用户们的特定需求总结而出的。

而另外一些专家则认为数据集市的建立并不需要首先建立一个数据仓库。在这个模型中,数据直接由事务型数据库转入数据集市中。一个公司可能建立有多个数据集市,而彼此之间毫无联系。

这种不在建立数据仓库的基础上创建数据集市的方式会更便宜、更快速,因为它的规模更加易于管理。

第二种观点的缺陷在于无法实现最初创建数据仓库的最主要的目的——将企业所有的数据统一为一致的格式。现有的事务处理系统的数据往往是不一致、冗余的。如果首先建立起一个全公司范围的数据仓库,组织就能够获得一个统一关于企业的活动和客户的知识库。如果先建立起一个个独立的数据集市,那么数据仓库的诸多优势都能够得以实现,但是企业远远无法做到对数据的一致的储存。

什么时候需要数据仓库?

你是否需要分析来自不同数据源的数据?

你是否需要将分析数据与事务数据分离?

你的原始数据源适合用来查询吗?

你是否希望提高数据分析的查询性能?

why Data Warehouse

why Data Warehouse

如果你对上述任意一个问题的回答是“是”,那么你很可能需要一个数据仓库。

也就是说,在我们看来,构建一个数据仓库通常是个好主意,因为在云计算时代,数据仓库并不贵。

总结

  1. 数据仓库是存储和处理数据的集中式分析数据库。
  2. 构建数据仓库的四个出发点。
  3. 一个简单的数据仓库技术列表。
  4. 数据仓库为分析工作负载而优化,而传统数据库为事务工作负载而优化。

下一篇文章,我们将来谈谈 数据中台,探索数据中台的核心要素,了解它如何整合企业的数据资源,如何提供统一的数据服务接口,从而支持企业的快速决策和创新。

image

image

主要谈论以下观点:

  1. 数据中台的基本概念和架构
  2. 数据中台与传统数据仓库的区别
  3. 数据中台在企业数字化转型中的作用
  4. 实际案例分析,看看领先企业是如何利用数据中台的
  5. 数据中台实施过程中可能遇到的挑战和解决方案

Onedata体系最初由阿里巴巴提出,最终的实现目标是数据的全局完整、含义一致、避免重复建设、对外提供统一的数据服务,目的是挖掘数据的价值、让数据驱动业务创新。 OneID:致力于实现数据的标准与统一 OneModel:致力于实现实体的统一,让数据融通而非孤岛存在,为精准的用户画像提供基础; OneService:致力于实现数据服务的统一,让数据复用而非复制。

👇👇👇👇👇👇👇👇👇👇👇

👆👆👆👆👆👆👆👆👆👆👆

欢迎扫码关注公众号,探索科技前沿,解读创新趋势。关注我,一起引领技术未来,让知识触手可及!在这里你可以了解:

  • 最前沿的技术资讯,洞察行业动态;
  • 深度的技术解析,理解复杂原理;
  • 广阔的交流平台,与志同道合者碰撞思想;
  • 持续的创新动力,激发个人潜能。