赋能AI数据:净、治、验,三步走

41 阅读9分钟

AI项目的成功关键在于数据,而非模型。重点是解决数据访问和治理问题,数据联邦、数据湖仓和数据产品是核心解决方案。

译自:Make Data Ready for AI With Hygiene, Governance, and Experimentation

作者:Brian Luisi

您的数据是否已为AI做好准备?

随着越来越多的组织进入AI采纳的规划阶段,这是一个严肃的问题。正确回答这个问题带来了严峻的挑战。

部分问题源于期望和瓶颈。

AI模型光鲜亮丽、富有创新、无处不在。在短短几年内,它们已成为家喻户晓的名称。因此,模型似乎是AI的自然起点是可以理解的。但AI采纳的真正瓶颈并非模型。

而是数据。

在本文中,我将探讨为什么许多AI计划停滞不前,并非因为模型限制,而是因为组织难以持续地为这些模型提供干净、经过治理且富含上下文的数据。我将展示为什么可信赖的高质量数据,而不仅仅是更多的模型,才是有效AI的真正支柱。

AI项目因数据而停滞的原因

AI是一种复杂的技术。要取得成功,AI需要数据

世界上最先进的模型如果没有坚实的数据基础就无法实现价值。AI的优劣不仅取决于喂给它的数据,还取决于使其工作所需的卫生、治理和实验。

数据访问对AI的重要性

而所有这些下面还有一个问题:数据访问。如果没有强大的数据访问能力,模型就无法使用它们所需的数据。

这并非引起假设性问题;它正在引起实际的技术难题。模型演示与企业AI项目停滞的现实之间存在脱节。

总的来说,这意味着数据质量和治理只成功了一半;操作化的实验是AI成熟度缺失的要素。

本质上,这引出了两个协同运作的核心问题:

  • 数据联邦,用于快速实验和原型设计。
  • Iceberg 数据湖仓,用于可扩展性和生产。

让我们更详细地了解这些。

为什么数据联邦是AI数据访问的解决方案

数据访问不应是事后才考虑的问题。通常,解决这个问题的方法是走向数据仓库中数据中心化的单向路径。

这样做的问题在于它很少奏效。即使奏效,也总是昂贵且耗时。最糟糕的是,最终结果导致供应商锁定,这限制了实验能力,并限制了未来技术、策略和方法的采纳。

解决这个问题需要一种不同的方法。

数据联邦如何帮助数据访问

数据联邦不是移动数据,而是使分布式数据集在其所在位置可访问,并在此过程中应用治理和细粒度访问控制。这以一种优雅而复杂的方式解决了数据访问问题,使得现在或未来可以访问任何数据源。

这有一个特别的优势:实验能力

数据联邦如何提高实验速度

模型开发是一个迭代过程。数据科学家很少在开始时就知道他们所需特征的确切形式。相反,他们通过实验、测试假设并迭代地进行优化。

数据联邦有助于这项工作,直接增强实验。

通过使分布式数据集在其所在位置可查询,数据科学家可以探索来自多个来源的数据,而无需等待漫长的ETL周期。这种策略加速了原型设计,缩短了反馈循环,并赋予团队在更短的时间内探索更多想法的敏捷性,从而改善与底层业务逻辑的连接。

一旦您完成了这些实验,创建了这些原型,并协调了业务逻辑,另一个阶段就开始了。

扩展。这就是数据湖仓显示其第二个优势的地方。

为什么开放数据湖仓是扩展AI采纳的颠覆性技术

数据湖仓旨在快速轻松地扩展。通过使用 Apache Iceberg 等格式标准化访问,团队可以跨云、本地和混合环境查询数据,而无需将数据锁定在专有系统中。此外,随着数据量的增长,数据湖仓允许AI应用程序随之增长,高效扩展,而无需承担数据仓库的相关成本。

结果是一个模型,其中数据既可用又受治理,使分析和AI能够在相同的可信基础上运行。

如何通过迭代成功采纳AI

AI采纳的实际路径始于使用您已有的数据,无论它们位于何处。

从那里,组织可以决定中心化的程度,平衡成本、合规性和性能。一旦建立一致的访问,团队就可以迭代:在受治理的数据分支上进行实验,验证结果,并快速适应。

这种访问、选择和实验的循环是将AI从试点项目转变为生产成果的关键。

数据产品如何成为AI数据治理的关键

解决了数据访问问题后,构建AI解决方案的下一个主要步骤是解决数据治理问题。没有数据治理,AI项目往往甚至无法启动。

鉴于此,数据治理是任何AI项目必须克服的障碍,尽管数据治理的需求通常是组织或法律层面的,但其解决方案则完全是技术层面的。

通常,为AI设计数据治理在AI项目开始前遵循三个关键里程碑:

  • 数据安全
  • 数据质量
  • 业务含义

没有数据安全,任何AI项目都无法启动。所有组织都要求在数据源级别和代理层面上提供安全保障,作为其AI使用的基础。同样,如果没有高质量的数据,AI将提供的洞察将是有限且有问题的。最后,如果业务逻辑没有以有价值的元数据形式正确编码到数据中,那么对业务的价值将是有限的,洞察也将是泛化的。

为什么数据产品将产品思维应用于数据

数据产品是AI数据访问治理领域最重要的创新。它们提供了一种简单、易用且安全的方式来与底层数据集交互,同时提供关键的业务含义和语义。

对于AI项目,数据产品允许普遍访问得到适当的治理,确保AI模型仅以正确的方式接收正确的数据。此外,业务元数据和语义提高了模型响应的质量并减少了幻觉。

这是数据访问的正确选择,也是合规性和监管监督的正确选择,这些通常要求AI访问是可预测和可验证的。

在一个又一个项目中,我们发现AI采纳中存在类似的问题。模型已经到位,但访问和治理问题需要一并解决。

看一个示例来了解这在实践中如何运作是很有用的。

案例研究:一家金融服务公司如何在不移动数据的情况下赋能AI

我们的一位客户,一家大型金融服务公司,面临着业内最困难的问题之一:在监管要求和运营系统的背景下,创建客户360度视图洞察和风险分析。

传统上,解决这个问题需要将敏感数据复制到中心化系统,这会产生合规风险并减慢响应时间

该金融服务公司如何使用数据联邦

相反,这家金融服务公司采用了联邦方法。通过将数据保留在原位并使其可查询,他们实现了实时客户和基于风险的决策制定,而无需创建昂贵的重复,并允许分析师快速迭代问题。此外,采纳湖仓策略发挥了关键作用,为公司提供了受治理、可审计的表,可扩展到全球工作负载。

该金融服务公司如何成功采纳AI

结果是一个系统,能够扫描抵达的交易,在发生时浮现实时洞察,并支持后续活动,同时提供对正确上下文中正确数据的受治理访问。重要的是,支撑合规工作流的相同受治理数据集也为创建客户360度视图的AI模型提供了动力。

结论:AI采纳始于数据

这种方法展示了AI成熟度在实践中是怎样的。它不仅仅是部署先进模型,而是确保干净、受治理和联邦的数据能够按需提供,并且不损害合规性。

为AI构建成功的数据基础

AI项目很容易让人感觉与其他数据项目脱节。尽管AI模型功能强大且具有革命性,但AI项目的成功往往归结为三件事:

  • 数据访问
  • 数据治理
  • 数据产品

没有这些基础构建块,AI模型将难以获得必要的访问权限,项目也会因为缺乏合规操作所需的治理而受阻。

我们有解决这些问题的工具

好消息是,我们可以解决这些问题。而且,它们实际上是数据工程师多年来一直在解决的相同问题,AI模型作为终点增加了额外的技术。

以这种方式看待问题,对于负责推出成功AI项目的任何人来说都是个好消息。这意味着工具掌握在您手中,方法论也一样。

数据联邦和数据产品等方法在分析中已经很有用。现在,它们在AI中变得至关重要。