赋能AI数据：净、治、验，三步走AI项目的成功关键在于数据，而非模型。重点是解决数据访问和治理问题，数据联邦、数据湖仓和

AI项目的成功关键在于数据，而非模型。重点是解决数据访问和治理问题，数据联邦、数据湖仓和数据产品是核心解决方案。

译自：Make Data Ready for AI With Hygiene, Governance, and Experimentation

作者：Brian Luisi

您的数据是否已为AI做好准备？

随着越来越多的组织进入AI采纳的规划阶段，这是一个严肃的问题。正确回答这个问题带来了严峻的挑战。

部分问题源于期望和瓶颈。

AI模型光鲜亮丽、富有创新、无处不在。在短短几年内，它们已成为家喻户晓的名称。因此，模型似乎是AI的自然起点是可以理解的。但AI采纳的真正瓶颈并非模型。

而是数据。

在本文中，我将探讨为什么许多AI计划停滞不前，并非因为模型限制，而是因为组织难以持续地为这些模型提供干净、经过治理且富含上下文的数据。我将展示为什么可信赖的高质量数据，而不仅仅是更多的模型，才是有效AI的真正支柱。

AI项目因数据而停滞的原因

AI是一种复杂的技术。要取得成功，AI需要数据。

世界上最先进的模型如果没有坚实的数据基础就无法实现价值。AI的优劣不仅取决于喂给它的数据，还取决于使其工作所需的卫生、治理和实验。

数据访问对AI的重要性

而所有这些下面还有一个问题：数据访问。如果没有强大的数据访问能力，模型就无法使用它们所需的数据。

这并非引起假设性问题；它正在引起实际的技术难题。模型演示与企业AI项目停滞的现实之间存在脱节。

总的来说，这意味着数据质量和治理只成功了一半；操作化的实验是AI成熟度缺失的要素。

本质上，这引出了两个协同运作的核心问题：

数据联邦，用于快速实验和原型设计。
Iceberg 数据湖仓，用于可扩展性和生产。

让我们更详细地了解这些。

为什么数据联邦是AI数据访问的解决方案

数据访问不应是事后才考虑的问题。通常，解决这个问题的方法是走向数据仓库中数据中心化的单向路径。

这样做的问题在于它很少奏效。即使奏效，也总是昂贵且耗时。最糟糕的是，最终结果导致供应商锁定，这限制了实验能力，并限制了未来技术、策略和方法的采纳。

解决这个问题需要一种不同的方法。

数据联邦如何帮助数据访问

数据联邦不是移动数据，而是使分布式数据集在其所在位置可访问，并在此过程中应用治理和细粒度访问控制。这以一种优雅而复杂的方式解决了数据访问问题，使得现在或未来可以访问任何数据源。

这有一个特别的优势：实验能力。

数据联邦如何提高实验速度

模型开发是一个迭代过程。数据科学家很少在开始时就知道他们所需特征的确切形式。相反，他们通过实验、测试假设并迭代地进行优化。

数据联邦有助于这项工作，直接增强实验。

通过使分布式数据集在其所在位置可查询，数据科学家可以探索来自多个来源的数据，而无需等待漫长的ETL周期。这种策略加速了原型设计，缩短了反馈循环，并赋予团队在更短的时间内探索更多想法的敏捷性，从而改善与底层业务逻辑的连接。

一旦您完成了这些实验，创建了这些原型，并协调了业务逻辑，另一个阶段就开始了。

扩展。这就是数据湖仓显示其第二个优势的地方。

为什么开放数据湖仓是扩展AI采纳的颠覆性技术

数据湖仓旨在快速轻松地扩展。通过使用 Apache Iceberg 等格式标准化访问，团队可以跨云、本地和混合环境查询数据，而无需将数据锁定在专有系统中。此外，随着数据量的增长，数据湖仓允许AI应用程序随之增长，高效扩展，而无需承担数据仓库的相关成本。

结果是一个模型，其中数据既可用又受治理，使分析和AI能够在相同的可信基础上运行。

如何通过迭代成功采纳AI

AI采纳的实际路径始于使用您已有的数据，无论它们位于何处。

从那里，组织可以决定中心化的程度，平衡成本、合规性和性能。一旦建立一致的访问，团队就可以迭代：在受治理的数据分支上进行实验，验证结果，并快速适应。

这种访问、选择和实验的循环是将AI从试点项目转变为生产成果的关键。

数据产品如何成为AI数据治理的关键

解决了数据访问问题后，构建AI解决方案的下一个主要步骤是解决数据治理问题。没有数据治理，AI项目往往甚至无法启动。

鉴于此，数据治理是任何AI项目必须克服的障碍，尽管数据治理的需求通常是组织或法律层面的，但其解决方案则完全是技术层面的。

通常，为AI设计数据治理在AI项目开始前遵循三个关键里程碑：

数据安全
数据质量
业务含义

没有数据安全，任何AI项目都无法启动。所有组织都要求在数据源级别和代理层面上提供安全保障，作为其AI使用的基础。同样，如果没有高质量的数据，AI将提供的洞察将是有限且有问题的。最后，如果业务逻辑没有以有价值的元数据形式正确编码到数据中，那么对业务的价值将是有限的，洞察也将是泛化的。

为什么数据产品将产品思维应用于数据

数据产品是AI数据访问治理领域最重要的创新。它们提供了一种简单、易用且安全的方式来与底层数据集交互，同时提供关键的业务含义和语义。

对于AI项目，数据产品允许普遍访问得到适当的治理，确保AI模型仅以正确的方式接收正确的数据。此外，业务元数据和语义提高了模型响应的质量并减少了幻觉。

这是数据访问的正确选择，也是合规性和监管监督的正确选择，这些通常要求AI访问是可预测和可验证的。

在一个又一个项目中，我们发现AI采纳中存在类似的问题。模型已经到位，但访问和治理问题需要一并解决。

看一个示例来了解这在实践中如何运作是很有用的。

案例研究：一家金融服务公司如何在不移动数据的情况下赋能AI

我们的一位客户，一家大型金融服务公司，面临着业内最困难的问题之一：在监管要求和运营系统的背景下，创建客户360度视图洞察和风险分析。

传统上，解决这个问题需要将敏感数据复制到中心化系统，这会产生合规风险并减慢响应时间。

该金融服务公司如何使用数据联邦

相反，这家金融服务公司采用了联邦方法。通过将数据保留在原位并使其可查询，他们实现了实时客户和基于风险的决策制定，而无需创建昂贵的重复，并允许分析师快速迭代问题。此外，采纳湖仓策略发挥了关键作用，为公司提供了受治理、可审计的表，可扩展到全球工作负载。

该金融服务公司如何成功采纳AI

结果是一个系统，能够扫描抵达的交易，在发生时浮现实时洞察，并支持后续活动，同时提供对正确上下文中正确数据的受治理访问。重要的是，支撑合规工作流的相同受治理数据集也为创建客户360度视图的AI模型提供了动力。

结论：AI采纳始于数据

这种方法展示了AI成熟度在实践中是怎样的。它不仅仅是部署先进模型，而是确保干净、受治理和联邦的数据能够按需提供，并且不损害合规性。

为AI构建成功的数据基础

AI项目很容易让人感觉与其他数据项目脱节。尽管AI模型功能强大且具有革命性，但AI项目的成功往往归结为三件事：

数据访问
数据治理
数据产品

没有这些基础构建块，AI模型将难以获得必要的访问权限，项目也会因为缺乏合规操作所需的治理而受阻。

我们有解决这些问题的工具

好消息是，我们可以解决这些问题。而且，它们实际上是数据工程师多年来一直在解决的相同问题，AI模型作为终点增加了额外的技术。

以这种方式看待问题，对于负责推出成功AI项目的任何人来说都是个好消息。这意味着工具掌握在您手中，方法论也一样。

数据联邦和数据产品等方法在分析中已经很有用。现在，它们在AI中变得至关重要。