数据湖与数据仓库。有哪些区别?

119 阅读10分钟

Data Lake vs. Data Warehouse: What are the differences?

数据湖和数据仓库是两种类型的数据存储架构,具有不同的属性和能力。选择一个或另一个取决于收集数据的预期用途和组织的目标。

两者都有一个共同点--它们存储数据,但它们如何处理数据是完全不同的。让我们对它们进行比较,看看哪个可能是你的企业的最佳选择。

目录

数据湖与数据仓库。它们为什么重要?
什么是数据湖?
数据湖的特点
什么是数据仓库?
数据仓库的特点
数据湖与数据仓库。主要区别
数据湖与数据仓库
:哪个最好?

数据湖与数据
仓库:哪个最好?
经验之谈

数据湖vs.数据仓库。它们为什么重要?

数据是当今最宝贵的资产。能够更好地处理数据的公司能够更快地向前发展并主导其行业。数据为决策提供了依据,定义了战略,并推动了业务。因此,收集、管理和存储数据是成功公司的基本步骤。

那些将数据纳入其业务战略的数据驱动型组织知道存储不是一个纯粹的技术问题。数据架构必须对大量涌入的数据做出反应。企业需要一个有效的管理系统来对市场需求做出更快的反应,根据数据法规(如GPRD)采取行动,分析和设计他们的下一步行动。总之,要在一个快节奏的、充满信息的环境中保持竞争力。

数据架构的两个主要方法是数据湖和数据仓库。

什么是数据湖?

数据湖的定义可以是 "以原始格式存储的大量数据集合"。在数据湖中,数据的结构化和处理只发生在检索的时刻。数据湖是储存用于分析工作的信息的存储库,从机器学习到可视化。它最近才被用于大数据。

数据湖的特点

数据湖的主要特点是集中化。通过收集和存储各种类型和任何规模的数据,数据湖是一种实用和低成本的工作解决方案。数据湖存储原始、非结构化、半结构化和结构化的数据,无需事先处理。结构化只发生在数据检索时,这为数据科学家提供了新的可能性。

数据湖也非常灵活,易于管理。引入新的数据类型没有任何障碍,这使得使用不同的应用程序更加容易。而且,由于扩展不是一个问题,它是大数据的首选架构之一。

这种方法对于实时收集数据的企业很有价值,在这种情况下,每条信息都得到同等的重视。企业可以使用数据湖来处理信息,并让它为市场营销部门服务。有大量的用户数据,分散在各种参数中--时间、地理、偏好、人口统计学--可以用来建立超个性化的细分活动。

还请阅读。数据科学。它是什么以及它如何帮助你的企业?

什么是数据仓库?

数据仓库的定义是 "一个数据管理系统,旨在从多个来源存储大量的预结构化数据"。他们的目的是通过一个特定的分类过程来收集和组织数据,以快速提供洞察力,改善企业的决策过程。这意味着数据加载到仓库**之前,**需要定义数据的用途。

数据仓库自20世纪80年代以来一直在使用。

数据仓库的特点

由于数据有预先确定的用途,数据仓库架构需要仔细规划:什么样的数据将被检索,哪些工具将被用于其收集、组织、处理和检索?我们的目标是以确定的格式拥有一个一致的数据体,随时可以进行分析。

由于它是一个由不同技术组成的管理系统,而不是一个存储库,所以它涉及到更高层次的投资。回报是以更高质量的数据的形式出现的**,它允许更快的决策**。

数据仓库定期从特定的应用程序中提取相关数据,无论是内部还是外部,由分析、客户和合作伙伴系统提供。然后,这些数据被格式化并存储到仓库的特定分配区,与现有项目的格式相匹配。然后,它被处理以创建适合企业决策过程的输出。

格式的一致性是数据仓库的强项之一,它提供了信息的完整性和质量,准备在没有处理延迟的情况下进行分析和使用。

让我们再看看市场营销:了解公司的哪些产品有需求,可以帮助建立一个纯粹基于预定义的、结构化的库存数据的战略,可能会突出一个以前没有注意到的购买趋势。

还请阅读。SQL与NoSQL。何时使用?

数据湖与数据仓库。主要区别

为大数据应用而设计,这些存储管理系统之间的主要区别是,数据湖似乎比数据仓库更 "无人管理"。但这并不是唯一的区别。

  • 孤岛与系统--数据湖作为一个被动的数据存储库工作,以后被用于不同的应用。数据仓库是一组技术,共同创建一个管理系统,旨在对信息进行战略利用,并有一个意图。

  • 数据类型- 数据湖以其原始的格式存储数据。数据仓库在存储之前对数据进行转换。这也造成了它们之间在速度上的差异,当涉及到数据的可访问性时,数据湖会更快。

  • 数据结构--数据仓库更注重结构化数据,由特定的属性、指标和来源定义。数据湖收集所有类型的数据,从结构化到非结构化。仓库在存储前定义数据模式;湖泊在存储后定义模式。

    有了数据湖,这就有了更多的灵活性。由于没有预先确定的模式,它们可以根据可用的数据和具体的目标来创建,并在个案的基础上重新制作。
    数据仓库必须预先定义数据模型,考虑到应用程序的所有具体要求。

  • 数据处理--数据仓库使用提取-转换-加载过程(ETL),因为数据在被加载到数据仓库之前必须被转换为结构化的格式。另一方面,数据湖使用提取-载入-转换(ELT)流程,因为数据转换是在载入数据湖之后进行的。

  • 数据分析--数据仓库的数据更适合于操作使用,因为它已经被组织和格式化。数据湖更适合深入分析和实验性应用,但在仔细的数据处理后也能提供操作价值。

  • 技术--由于数据湖在检索时只对部分数据应用模式,它可以依靠更简单的框架来有效地存储和处理大型数据集。数据仓库使用关系型数据库技术来提供对非常结构化数据的高速查询。

  • 存储和计算--数据仓库更加复杂,因为它同时整合了存储和数据计算。数据湖有一个解耦的存储和计算方法:它们主要作为一个存储库,所以存储是它们的主要功能,而计算数据不是优先考虑的。

  • 成本- 数据仓库,作为一个技术包,是比较昂贵的,对变化的灵活性较差,需要全面的规划。数据湖则更实惠,更新更快。如果使用得当,两者都能带来良好的投资回报率。

  • 限制- 数据湖允许在数据处理方面有更大的自由度:数据总是以其原始格式存在,并被永久保存,可以在任何可能的应用中随意转换和重复使用。数据仓库通过在摄入时强行转换数据,减少了数据的可塑性,但这正是它们的目的:以特定的意图生成预格式化的信息。

  • 目标--数据湖允许数据有更多的偶然性,使其成为使用深度数据分析进行统计分析和预测性建模的数据科学家的理想选择。数据仓库是专注于运营目的和性能指标的商业专业人士的理想选择。数据展示的结构更好,更容易使用和理解,因为信息是根据用户的具体需求定制的。