数据仓库简介

252 阅读8分钟

这篇文章是作为数据科学博客马拉松的一部分发表的

以下是一篇深入的文章,解释了什么是数据仓库,以及它的类型、特点、好处和缺点。我们将在文章中涉及的几个主题是。

1.什么是数据仓库?

2.为什么数据仓库至关重要?

3.数据仓库的应用和特点

4.数据仓库的优势和劣势

这篇文章适合于任何想了解数据仓库基本概念的人,包括数据库专业人员、数据库管理员和新鲜人。

什么是数据仓库?

数据仓库(DW)是一个储存大量有组织的数据的仓库。这些数据可以从多个来源整合。DW是关系型数据库,设计用于组织的分析报告和及时决策。用于此目的的数据是与源交易数据隔离和优化的,所以它不会影响主要业务。当一个组织引入任何业务变化时,那么DW被用来分析该变化的影响,因此DW也可以被用来监测非决策过程。

数据仓库主要是只读系统,因为操作数据与数据仓库是分开的。这为检索最高数量的数据提供了一个良好的查询编写环境。因此,DW将作为商业智能工具的后端引擎,向商业用户显示报告和仪表盘。它被广泛应用于银行、金融、零售等领域。

为什么数据仓库是至关重要的?

数据仓库至关重要的主要原因有以下几点。

  • 数据仓库结合了来自几个 "不同格式 "的异质来源的所有业务数据,并通过提取、转换和加载(ETL)的过程,将数据以 "标准化的维度格式 "加载到整个组织的DW。
  • 数据仓库同时维护当前和历史数据,用于分析报告和基于事实的决策。
  • 改善你的业务决策。成功的企业领导者制定数据驱动的战略,很少在不考虑事实的情况下做出决定。数据仓库使企业决策者更容易更快更有效地访问不同的数据集,并获得指导其业务和营销战略的洞察力。
  • 数据仓库平台使企业领导人能够访问其组织的历史活动,并评估过去成功或不成功的举措。它使高管们能够看到他们在哪些方面可以降低成本,最大限度地提高效率,并增加销售以提高利润。

数据仓库的特点

数据仓库的设计基于以下标准:面向主题、集成、非易失性和时间变化。

1)以主题为导向。如果我们可以在一个特定的领域分析数据,而不是通过应用明智的数据,我们可以把数据仓库称为面向主题。因此,决策变得更加简单。在一个教育系统内,主题领域可以是学生、科目、分数、教师等。

2)整合。数据仓库中的数据来自不同的来源,如其他关系型数据库、平面文件等。为了进行有效的数据分析,获取了大量的数据。然而,不同来源的数据可能是不同的格式,这可能会导致数据冲突。所有这些数据在整个系统中以一致的格式被汇集到数据仓库中。

3)非挥发性。一旦数据被加载到数据仓库,它就不能被改变。从逻辑上讲,这是可以接受的,因为频繁地改变数据会妨碍分析。有可能在预定的基础上将操作数据库加载到数据仓库。在这个过程中,新的数据被添加,但早期的数据不会被丢弃,仍作为历史数据。

4)时间变量。所有的历史数据与数据仓库中的近期数据一起,对于检索任何时间段的数据都是至关重要的。为了与前几年进行比较并分析趋势,所有6个月前、1年前甚至更早的旧数据都将被要求用于报告、图表等。

Data Warehouse characteristics  Oriented Subject: In Data Warehouse, data is organized by theme. Theme-specific data, such as sales, will be returned from the various OLTP production bases and consolidated.  Integrated: The data come from heterogeneous sources using different types of format. They are integrated before being used.  Non-volatile: Data do not disappear and do not change over the treatment over time (Read-Only).  Historized: Non-volatile data is also time stamped. It is possible

图2:数据仓库的特点

数据仓库的应用

在数据仓库中,商业智能(BI)被用于决策。一旦DW中的数据被加载,BI就会通过分析数据并将其呈现给商业用户而发挥主要作用。术语 "数据仓库应用 "有效地暗示了数据如何被操作和利用。

数据仓库的应用分为三类:信息处理、分析处理和数据挖掘。

信息处理数据仓库使处理其存储的信息成为可能。数据可以通过查询、基本统计分析和报告来处理。

分析性处理存储在数据仓库中的信息可以被分析处理。在基本的OLAP(在线分析处理服务器)操作的帮助下,如切片和切块操作,向下和向上钻取,以及透视,数据可以被分析。

数据挖掘通过数据挖掘,可以通过寻找隐藏的模式和关联,构建分析模型,以及进行分类和预测来发现知识。数据挖掘的结果可以直观地呈现出来。

1.信息处理这是一种应用类型,数据仓库可以与它存储的数据进行直接的、一对一的接触。利用对数据的直接查询,对数据进行基本的统计分析。

DW支持的信息处理的工具是。

1.1)查询工具通过使用查询工具,用户可以探索数据并根据业务需求生成报告或图形。

1.2) 报告工具。当企业希望定期看到某种格式的结果时,如每天、每周或每月,就会用到报告工具。这种类型的报告可以被保存并随时检索。

1.3)统计工具。为了产生这些结果,如果企业想从更广泛的角度来研究数据,就会使用统计工具。通过了解这些战略结果,企业可以做出预测和结论。

2 . 分析处理。 这是一种允许对存储在数据仓库中的数据进行分析的应用程序。Slice-and-Dice、Drill Down、Roll Up和Pivoting是一些可以用来评估数据的操作。

2.1)切片和切块数据仓库可以进行切片和切块操作,从多个层面和不同角度来评估数据。在内部,下钻机制被用于切片和切块操作。切片是一种操作维度数据的技术。

如果我们专注于一个单一的区域作为业务需求的一部分,切片根据标准评估该特定区域的维度并返回结果。Dicing是一个执行分析过程的程序。Dicing通过放大所有维度上的一组选定的属性,提供各种观点。一个或多个连续的切片被用来计算维度。

2.2) 向下钻取: 向下钻取是一种操作,如果企业希望得到任何摘要数字的更详细的层次,就可以将摘要数字向下遍历到次要的详细层次。这可以很好地说明正在发生的事情,以及公司应该集中精力的地方。

2.3) 滚动滚动是钻取的极致。如果企业需要任何总结性的数据,向上滚动就会发挥作用。通过向上推进维度结构,它可以汇总细节层面的数据。滚动是用来检查系统的发展和性能。

3.3.数据挖掘。 这是一种类型的应用,其中数据仓库促进了数据知识的发现,并使用可视化工具对发现进行了可视化。随着各行业数据量的增长,查询和钻取数据仓库以获得所有潜在的数据洞察力是很困难的。然后,数据挖掘进入现场,帮助进行知识发现。

这进入数据与所有以前的关联,结果,等等,并预测未来。在数据中可以找到隐藏的模式、关联、分类和预测。

数据仓库的优势和劣势

优点。

当一个数据仓库系统运行时,企业会获得以下好处。

  • 商业智能的提升
  • 系统和查询性能的提高。
  • 商业智能的多种来源
  • 实时的数据访问
  • 来自过去的情报
  • 超常的投资回报率

缺点。

尽管它是一个非常成功的系统,但意识到它的一些缺陷也是有用的。

  • 创建一个数据仓库是一项极其耗时和困难的任务。
  • 维护成本很高,因为系统需要不断改进。
  • 开发人员、测试人员和用户应该有足够的培训,以便理解DW系统。
  • 敏感数据有可能无法被输入DW进行决策。
  • 任何业务流程源系统的重组都会对DW产生重大影响。

结论

近年来,我们存储、组织和分析数据的方式已经发生了巨大的变化。基于云的数据仓库为从数据中提取和分析信息提供了改进的方法。他们使数据仓库对中小型组织以及大型和资金充足的公司来说都是可获得的和有效的。与其在一个单一的企业数据仓库上投资数月和数百万美元,现在基于云的数据仓库可以在几天内建立,管理服务和基于云的存储每月只需几百美元起。

我希望我能够提供一个简单的数据仓库的背景,在文章中我们涵盖了数据仓库的定义,类型,特点,好处和缺点。