将安全性应用于数据产品

0 阅读8分钟

我们最近发表了一篇关于数据网格的博客文章,概述了如今数据界最热门、最具争议的话题之一。

提醒一下,数据网格是一种数据架构方法,最初由 扎马克·德加尼(Zhamak Dehghani)在宣言中定义,旨在取代如今已成为标准的集中式数据平台。数据网格的创建是为了应对大型组织在大规模下面临的常见挑战,传统架构难以适应不断增长的数据源和消费者。

image.png

数据网格包含四个主要原则:

分布式域驱动架构:分布式团队拥有由业务域定义的数据,而非拥有公司所有数据的集中式团队。

产品思维:也称为“数据作为产品”,数据集被视为独立的产品,构建和维护时以消费者为中心。

自助平台设计:一个独立团队开发接口和工具,以减轻基础设施建设和管理的负担。

联合数据治理:适用于所有数据产品,这些产品由数据领域团队独立管理。

熟悉软件开发微服务的人会发现这两种架构方法之间有不少相似之处。在这篇博客中,我们将专门关注数据产品,它们在软件中扮演着类似微服务的功能。

数据网格不一定适合所有组织,但它为理解数据产品提供了有用的框架。即使你不认同数据网格哲学,将产品原则应用于组织数据依然有价值。

什么是数据产品?

数据产品是数据网格框架中较为复杂的概念之一,因为组织对其定义不同。它们的共同点是,数据应当作为产品来管理,设计为供内部或外部客户使用。

不同组织使用的一些数据产品定义示例:

数据产品作为一个整体,涵盖组织所有数据,类似于拼车应用等软件产品。

数据产品作为资产,因其利用的数据,为公司创造了竞争优势。这可以是内部的,比如网约车应用中的机器学习算法,也可以是外部的,比如企业的数据分析平台。

数据产品作为一个自包含的组件,可以跨业务领域使用以解决分析问题。

在本博客中,我们使用第三个定义来讨论数据产品,因为它是数据网格讨论中最常用的定义。

将产品思维应用于数据

在数据网格中,数据由基于业务域的分布式团队拥有,而非由技术专长定义的团队拥有。这带来了新的挑战:我们如何实现数据的自由共享,防止团队以各自为政的方式运作?

数据产品就是为解决这一问题而被构思出来的。其理念是,拥有数据的团队还负责以其他领域团队可用的方式分享和包装这些数据。数据产品与任何分析数据集的区别在于它是完全自包含的,也就是说,对于它解决的分析用例来说,它包含了所有必要的数据、收集和处理数据所需的代码,以及运行代码所需的基础设施。

最小可行数据产品需要满足以下几个普遍认可的标准:

可发现性:为了让数据产品完全可被发现,它们需要被某种可查询或浏览的中央系统注册,例如数据目录发现责任在于数据领域团队,他们需要向系统注册他们的产品。

可寻址:用户需要能够使用唯一地址访问数据产品,遵循全局命名规范。

可信度:数据产品不仅需要使用干净、完整且准确的数据,还需要能够向数据消费者展示其可信度。领域团队必须为每个产品定义服务水平目标(SLO),以定义其数据完整性目标,同时考虑产品需求和潜在权衡。

自我描述:消费者应能够自行找到访问和使用数据产品的方法,而无需咨询领域团队的帮助。

互操作性:这是较难维护的标准之一——数据产品需要遵循全球治理规则,以便彼此轻松连接。

安全性:数据产品需要保持强有力的数据安全措施,尤其是在涉及敏感客户数据时。这里一个关键方面是安全数据访问控制,它是集中定义并基于域名应用的。

除此之外,将产品思维应用于数据意味着明确花时间定义数据领域的范围。团队围绕消费者需求规划数据产品,考虑用户体验、合规性和安全性,以及与其他数据产品的易集成性。

数据产品对谁有用?

数据网格并非适合所有人——它需要广泛的组织认同、拥有广泛专业知识的数据专业人士以及极高的数据成熟度。“数据作为产品”是数据网格范式的基本组成部分,但它作为一个独立的概念对于采用更传统的集中式数据架构的企业来说仍然有用。

数据产品在那些需要跨团队共享大量数据的组织中非常有用,而用户不一定完全了解数据的全部上下文。通过以用户友好、可发现且数据消费者可访问的方式打包数据集,团队可以大大简化、更快地从组织数据中创造价值。

将一切整合为一个数据安全平台

管理您的数据产品

数据产品框架强调联邦治理,由中央团队制定全球数据治理规则,以实现互操作性,即允许用户共同对多个数据产品执行操作的能力。否则,领域团队被赋予自主权,根据每个产品数据生产者和消费者的独特且不断变化的需求,自行制定治理标准。例如,全球治理团队可能实施中央库存,如数据目录,以保持数据产品和其他数据资产的可发现性。该团队定义业务语义,并将其与数据目录或库存系统关联起来。数据产品所有者负责确定其产品的数据质量、安全性和访问政策。

对于构建数据产品的组织来说,数据安全和访问管理现在是在每个数据产品的包中管理的,而非由中央数据工程团队或DevOps团队在所有数据产品中应用。直观上,这很合理——数据访问应由最熟悉数据及其背景的人来控制。实际上,正如许多数据专业人士所证明的,手动管理这些功能往往既痛苦又耗费大量资源。这就引出了一个问题:如何在不给全球治理团队和每个领域团队增加额外工作的情况下,实现数据访问和安全的分散?

这时,数据安全平台就发挥作用,帮助解决本地领域团队和全球治理团队的数据治理挑战。当团队拥有灵活的工具自动设置和执行安全策略时,他们可以迅速适应不断变化的用户和用例。

image.png

数据安全平台对您的数据产品的好处

数据安全平台帮助组织发挥数据产品方法的全部潜力,包括:

粒度访问控制:不可避免地,许多不同用户和不同用例会与单一数据产品互动。产品负责人需要能够根据角色、其他属性或数据敏感度管理对不同用户的不同组件的访问权限。

动态数据掩蔽:处理敏感数据的域可以根据用户属性设置掩蔽策略,这些策略可自动应用,无需复杂的逻辑或配置。

自助数据门户:用户轻松申请访问权限,数据所有者也轻松授权,提升数据产品的可用性。

审计、监控态势管理工具:针对合规和审计需求,集中式治理团队需要跟踪数据所在位置及谁有访问权限,涵盖所有数据产品。

image.png

海獭数据翻译团队简介:

海獭数据团队致力于科普、推广数据治理、数据安全治理相关的技术和管理方法。将最新的国内的数据理论方法推向全球,将海外的思想整理,翻译过来回馈给感兴趣的读者。我们也会独立撰写一些文章,以汇总整理相关知识。