解码数据产品为什么使用数据网

65 阅读6分钟

数据网是一种分析性的数据架构和操作范式,其中数据被视为一种产品,并由知道如何最好地使用数据的团队拥有。

如今,数据无处不在。我们所做的每一项数字活动都会产生数据作为副产品。数据是由一切事物产生的,包括系统、流程和传感器。技术使企业获取和保留数据变得更加简单,然后他们可以利用这些数据做出更好的决策或为消费者提供更多的个性化体验。

而另一方面,企业却很难使他们的员工能够做出最佳和最及时的判断,并赋予他们权力。集中式数据平台设计无法以企业想要的速度和规模提供洞察力。这些问题可以通过使用数据网来解决。

为什么使用数据网?

数据网,如果做得正确,表明谁拥有数据,因此,谁可以帮助增加新的功能,提供有关异常的进一步信息,并与业务和技术团队互动以弥补差距。

数据被分离到不需要彻底规范化的领域。完全规范化的数据不再是必要的,因为除了存储成本较低之外,它增加了BI和高级分析用例的加入复杂性。相反,团队通常采用 "Starflake"模式,它是Snowflake和Star之间的交叉。因此,他们能够支持更多的开发团队,以及复杂的分析和报告用例。

数据网格原则

领域所有权

数据生产者和数据消费者应该在可行的情况下紧密合作。从组织的角度来看,最理想的情况是同一个团队生产和消费相同的数据,将兴趣、责任和能力结合在一起。事实上,这很少可能,因为一个产生数据的团队在他们的领域已经有太多的义务,无法完全拥有一个数据消费的项目。

将这些职责分给两个团队,让他们直接互动而不需要中间人,这是一个重要的进步。一个数据生产团队的目的应该是以这样一种方式提供他们的数据,使其他人可以从中受益。

数据作为一种产品

数据网为数据提供了一个领域驱动的设计(DDD)!DDD中的数据结构由一个组织的领域决定。因此,组织和逻辑将由每个领域驱动。

因为数据可以被理解为实体和特征,两者本质上都是领域驱动的,所以DDD在这里至少和软件工程的意义一样。数据网将产品思维应用于数据,数据产品是API。为了做到 "可发现",数据必须被很好地定义和记录。

传统的数据集市,是数据仓库中的数据聚合,通常是领域驱动的,由一个小团队以更敏捷的方式管理,与数据网状结构概念有很多共同之处。它们被利用来获得新的视角,解决具体的战略困难。

自助服务平台

正如你所料,设计、安装、执行、监控和访问一个简单的六边形--数据产品,需要大量的基础设施。提供这种基础设施所需的技能是专业化的,不可能在每个领域都能复制。

最关键的是,能够获得高水平的抽象基础设施,消除提供和维护一生的数据产品的复杂性和摩擦,是团队能够自主控制其数据产品的唯一途径。这就需要建立一个新的原则:自我服务的数据基础设施是一个领域自治的平台。

数据治理

正如你所看到的,一个数据网是使用分布式系统设计开发的,它由一组独立的数据产品组成,有自己的生命周期,由潜在的独立团队构建和发布。

然而,为了获得高阶数据集、洞察力或机器智能的价值,这些不同的数据产品必须相互操作。他们必须能够相互关联,进行联合,识别交叉点,对其进行其他图形或设置操作,以达到规模化。

任何这些过程的实现都需要一个数据网状结构,它包含了分散化和领域的自我主权,通过全球标准化的互操作性,一个动态的拓扑结构,以及最关键的,自动化的平台决策执行。这就是我所说的联盟式的计算治理。

数据作为一种产品。数据网

获取、解释、信任和最终利用优秀数据的高摩擦和费用是目前分析数据基础设施的问题之一。如果不加以处理,随着提供数据的网站和团队数量的增加,这个问题只会越来越严重。这将是我们第一个权力下放原则的结果。

数据即产品的理念是为了解决数据质量和数据孤岛的老问题,或者说黑数据。正如Gartner所定义的,这些是 "企业在日常业务活动中获取、处理和存储的信息资产,但很少用于其他目的"。领域提供的分析数据必须被当作产品来处理,而数据消费者应该被当作客户--快乐的客户。

为了使领域数据被称为产品,数据网的实施应该提供可发现性、安全性、可探索性、可理解性、可信赖性等等。它还应该概述企业必须建立的角色(如领域数据产品所有者,他对保证数据作为产品提供的客观指标负责)。

这些指标包括数据质量、减少的数据消费滞后时间,以及由净促销员得分衡量的整体数据用户幸福感。领域数据产品的所有者必须彻底掌握谁是数据消费者,他们如何使用数据,以及他们喜欢用什么原生方法来消费数据。利用这些对数据用户的详细了解,设计出符合用户需求的数据产品界面。

说实话,对于网状的大部分数据产品,只有几个传统的角色有自己的工具和期望:数据分析师和数据科学家。为了支持他们,所有的数据产品都可以建立标准化的接口。数据消费者和产品所有者之间的沟通是开发数据产品接口的重要部分。

总结

数据网整合了孤立的数据,协助企业走向规模化的自动分析。它使企业能够摆脱单体数据结构的消耗性陷阱,节省运营和存储的费用。通过将数据管理和所有权下放给特定领域的业务团队,这种新颖的分布式策略有望缓解集中式数据所有权造成的数据访问瓶颈。