数据网与数据结构的不同之处

183 阅读5分钟

数据网是一个高度分散的数据架构,配备了解决包括缺乏数据所有权,缺乏高质量的数据和扩展瓶颈的挑战。数据网状结构的目标是将数据视为一种产品,每个来源都有一个数据产品所有者,他可以是跨职能的数据工程师团队的一部分。数据网状结构--由Thoughtworks的Zhamak Dehghani在2019年5月介绍--克服了传统数据湖和数据仓库的问题。

数据结构是一个多合一的集成架构层,连接数据和分析过程。它利用现有的元数据资产来支持所有环境和平台的设计、部署和适当的数据利用。数据结构旨在通过自动化流程加速数据推理,并提供实时洞察力。它将数据、分析和仪表盘 整合为一体,并作为一个管理解决方案,允许在分布式环境中进行无摩擦访问。

据Gartner称,数据结构是一个设计概念。该方法利用现有的、可发现的和推论的元数据资产进行连续分析,以实现在所有环境中设计、部署和利用集成和可重复使用的数据。

方法:自动化与人的融入

数据网从以人为本和以流程为中心的角度来处理数据,并将数据视为一种产品。数据结构利用人类和机器的能力,在适当的时候访问数据或支持其整合。它将连接数据来源、类型和位置的技术与访问数据的不同方法相结合。Gartner用自动驾驶汽车的比喻来解释这个概念。数据结构作为一个被动的观察者监测数据管道,然后建议更多的替代方案。当数据 "司机 "和机器学习都能适应重复的场景时,他们通过自动化的即兴任务来互补,同时让领导层自由地专注于创新。

数据结构不断识别、连接和丰富来自不同应用的实时数据,以发现数据点之间的关系。它通过建立一个存储相互联系的数据描述的图形来做到这一点,算法可以用来进行商业分析。

数据存储:集中式与分散式

数据网中,数据被分散地存储在公司内部的领域内。每个节点都有本地存储和计算能力,操作时不需要单一的控制点。从本质上讲,原始数据仍然在域内,数据集的副本是为特定的使用情况产生的。

在数据结构中,数据访问是集中的,高速服务器集群用于网络和数据结构中的高性能资源共享。

架构

根据Thoughtworks的说法,数据网状结构范式是取代数据湖成为数据和分析领域主流架构模式的有力候选者。数据网状结构引入了一个独立于特定技术的组织视角。其架构遵循领域驱动的设计和产品思维,以克服与数据有关的挑战。数据网状结构文化是关于连接人们和创建一个联合责任结构。

数据结构利用元数据来驱动建议,而数据网则与主题专家合作,监督领域的情况。这些领域是可独立部署的微服务集群,与用户沟通。它由代码、工作流程、团队和技术环境组成。

数据结构与技术、业务和运营数据一起工作,并大多与之兼容。可视化工具使技术基础设施易于解释,并帮助组织管理其存储成本、性能、安全和效率。此外,公司可以在各种数据存储库上虚拟部署一个单一的数据结构,以管理不同的数据源和下游消费者。

数据访问:APIs 控制的数据集

在数据网中,数据是通过受控数据集提供的。首先,信息被从部门的数据存储中复制到一个共享位置。

在数据结构中,数据是通过基于目标的API提供的。数据被复制到特定的数据集,用于特定的用途,而拥有数据的业务部门则处于控制之中。

使用案例

数据网是混合云网络的理想选择。数据结构可以实现单点数据访问,解决数据质量和存储问题,处理安全威胁。
值得注意的是,数据网和数据结构并不是相互排斥的概念。组织可以在不同的用例中利用这两种方法。根据微软的数据和人工智能解决方案架构师James Serra的说法,这两个概念之间的区别在于用户如何访问数据。他,数据结构和数据网状结构提供了跨越多种技术和平台访问数据的架构。"但数据结构是以技术为中心的,而数据网状结构则侧重于组织变革。他补充说:"[数据网]更多的是关于人和流程,而不是架构,而数据结构是一种架构方法,以一种智能的方式解决数据和元数据的复杂性,并能很好地协同工作。