数据仓库在今天的技术管理世界中很常见,是许多组织正在走向的一种创新。数据仓库架构用于同一企业或网络内所有终端用户的整体通信和数据管理。几乎所有的数据仓库都有不同的特点,但其特点是里面存在标准的重要组件。
所有的生产应用,如库存控制、应付产品采购和工资会计应用都是为在线交易处理或OLTP设计的。所有这些应用程序在其日常操作中收集和使用数据。数据仓库应用程序支持所有这些数据集的临时要求,并提供预测、趋势分析、剖析和总结报告等任务。
仓库数据库从上到下都是自动化的,通常在下班时间更新。仓库内积累的数据被分类、归纳和组合,以供将来使用。
大多数数据仓库和它们在后端使用的架构根据一个组织内的元素情况而不同。数据科学家所遵循的常见架构包括。
- 基本的
- 有暂存区
- 有数据集市和暂存区
在这篇文章中,我们看一下数据仓库架构和其中使用的各种类型。我们深入了解该技术并探索各种选择。
数据仓库的属性
一个典型的数据仓库带有多种工具,终端用户可以在仓库上享用。这些访问工具包括。
- 应用开发工具
- 查询和报告工具
- 执行信息工具
- 数据挖掘工具
- 在线分析和处理工具
所有这些工具都可以被终端用户用来设计数据架构中的关键操作。在了解了关键的访问点之后,我们现在要对数据仓库的属性进行一些说明。这些属性在结构上分为5个不同的头,包括。
- 分离性。分离是数据仓库的第一个属性,因为所有的交易和分析处理都要尽可能的分开。
- 可扩展性。在数据仓库工作的架构师应该有能力执行新的操作和运行新的技术,而不需要从头到尾的工作和改造整个系统。
- 可管理性。数据仓库的管理应该被简化,而不是变得更加复杂。
- 安全性。仓库应该有监控协议和访问权限,以确保系统的所有端点和入口在任何时候都受到严密保护。
- 可扩展性。增长是任何数据仓库都无法否定的。数据仓库的硬件和软件协议应该是非常简单的升级。仓库上的数据量应该被管理,并且应该逐渐灵活,以满足组织的增长。
数据仓库的结构类型
虽然数据仓库可以有不同的形式,但在今天以数据为中心的世界里,有三种基本的数据仓库类型。这些类型包括。
单层结构
具有单层架构的仓库在实践中没有得到全面的实施。单层仓库架构工作的主要目的是尽量减少数据的冗余。单层仓库大多是物理性质的。
大多数人都会知道,单层仓库中唯一的物理层是源层。数据仓库是通过特定的中间件创建的,用于所有业务数据的多维视图。
单层数据仓库结构在本质上是脆弱的,因为它无法理解交易和分析处理之间分离的要求。查询是对操作数据的同意,并影响到管辖仓库的事务性工作负载。
两层架构
单层模型的缺点和额外分离的要求通过下面研究的两层数据仓库结构得到满足。
虽然这种类型的数据仓库被称为两层,因为它分离了数据仓库中的物理源,但实际上在这个架构中存在四个层和后续阶段。
这些层包括。
- 初始源层。大多数两层的数据仓库使用异质的数据源。这些数据来自于组织内部或外部的信息系统。
- 数据暂存。数据暂存层负责监督所有数据的提取、清理和结构化。阶段性的过程看到了数据的整合以及所有差距和不一致的消除。诸如转换、提取和ETL等过程在这里进行。
- 数据仓库。在上一层中被分阶段和结构化的信息现在被保存在一个单独的存储库中,称为数据仓库。数据仓库本身也可以被访问,但大部分是以数据集市的形式被复制给不同的部门。
- 分析。这是一个灵活和有效地访问仓库内所有数据的层。分析将有助于产生可操作的洞察力,并指导业务决策。
三层架构
三层数据仓库模型在源层和两层架构的数据仓库层之间增加了一个调节层。调和层被定位在源和仓库之间。
调和层有助于为整个组织的部门创建一个参考模型。调和层也可以用来生成数据流,为外部流程提供信息,并提供全面的数据整合。参考层可以让分析层离源头更远一些,创造一种时间上的延迟。
数据仓库及其架构在当今的数据驱动的数字时代发挥着不可或缺的作用。这三种类型的数据仓库有助于在组织中运行可操作的数据洞察力并提供情报。