数据产品化:解锁创新的8种方式

84 阅读14分钟

将数据视为产品,进行命名、版本控制和记录,并与业务成果对齐。通过MCP API公开数据产品,投资于新兴数据源,向量化非结构化数据,并嵌入沿袭、同意、可解释性和治理。在结构化目录中发布数据产品,并管理速度和数量。

译自:8 Ways to Unlock Innovation With Data as a Product

作者:Ivan Novick

许多传统数据系统在设计时并未考虑应对现代 AI 工作负载 的需求。AI 模型、智能代理和自动化管道需要快速、可靠、可解释且良好集成的数据访问。在这种环境中取得成功的组织,是那些有意识地组织和管理数据,而不仅仅是被动存储数据的组织。简而言之,他们像对待 产品一样对待数据

他们命名、版本化、记录数据,分配所有权,并将其与业务成果对齐。他们通过结构化的数据目录使其可被发现。他们根据数据的访问和更新方式选择合适的基础设施。他们不会回避困难的数据集(如实时流、非结构化内容或新兴的外部来源),因为他们知道最具战略价值的信息就在其中。

创建数据产品,而不仅仅是存储数据

每个重要的企业数据集都应该被组织和维护为数据产品的一部分。每个产品都应该有一个清晰的名称、目的和愿景,以及全面的文档、路线图和一个指定的产品经理。这种方法为数据资产带来了结构性、责任性和有意的演变,否则这些资产将仍然处于未管理和未充分利用的状态。

运行良好的数据产品应该像其他任何业务产品一样进行评估。

运行良好的数据产品应该像其他任何业务产品一样进行评估:如果它产生的价值超过了维护成本,那么就值得持续投资和改进。如果不是,则应该将其弃用。

数据产品应该遵循定期的发布周期,改进应以其最关键的消费者(如承保负责人、理赔运营经理、营销总监和客户体验主管)的反馈为指导,他们对推动业务成功所需的要素有着深刻的理解。

使数据战略与业务关键性保持一致

数据产品化必须以业务影响为指导,并侧重于数据驱动智能能够带来明确、可衡量结果的高价值用例。受到严格监管的行业对数据的使用、保护和隐私规则尤其敏感。高度依赖数据的用例包括:

  • 针对行为风险信号量身定制的动态定价模型
  • 使用索赔模式分析的实时欺诈检测
  • 适应新兴生活方式和生物特征趋势的 AI 辅助承保,使用情绪和互动数据的主动式客户流失预防
  • 通过可追溯来源的审计跟踪实现监管合规自动化

每个数据产品都应该直接支持一项关键业务功能。构建“以防万一”的数据湖或无目的地存储数据的传统思维模式会导致无序蔓延和运营浪费。相反,数据计划必须从业务成果开始。这意味着系统地与精算、运营、营销、理赔和财务等部门的业务利益相关者进行沟通,以了解他们当前和未来的数据需求。

这种方法将数据从被动的基础设施转变为可管理的战略投资组合。

您的数据产品路线图应基于从这些沟通中获得的发现。任何不属于受治理数据产品的数据资产,或任何缺乏与业务利益相关者需求对齐的产品,都应被弃用或存档。这种方法将数据从被动的基础设施转变为可管理的战略投资组合,资源集中用于维护和发展积极推动组织目标的数据产品。

通过 MCP 可访问的 API 公开数据产品

当 AI 代理和模型可以通过在各种客户端和执行环境之间兼容的标准化、可插拔协议访问数据时,它们的效果最佳。正如 REST 和 SQL 在过去几代应用程序中实现了广泛的互操作性一样,模型上下文协议 (MCP) 正在成为 AI 原生访问企业数据的标准接口。

通过 MCP 可访问的 API 公开数据产品,组织可以使这些 产品立即被 AI 代理、大型语言模型 (LLM) 和其他智能客户端使用,而无需自定义集成逻辑。MCP 工具定义了一种通用的交互模式,允许代理发现数据产品可以做什么,发送结构化查询或操作,并接收它们可以使用的格式的结果,例如 JSON 或嵌入。这些接口还支持传统应用程序,使 AI 和非 AI 客户端都可以通过一致的工具集使用相同的数据产品。

每个数据产品应至少包括一个 MCP 工具,该工具提供模块化、声明性接口,公开相关操作,如搜索、过滤、查找、汇总或预测。这些工具位于数据产品之上,并抽象出底层存储和计算引擎。无论数据是由关系数据库、向量存储还是文档索引支持,MCP 层都确保访问是标准化和可发现的。

这种方法允许企业面向未来地构建其数据架构。随着越来越多的 AI 代理、副驾驶和检索增强生成 (RAG) 管道的出现,任何理解 MCP 的系统都可以立即安全地开始使用企业数据产品,而无需定制连接器或重复的管道。

投资于面向未来和新兴的数据源

为下一波 AI 创新做准备的企业必须超越传统的客户、交易、索赔和网络分析等数据集。未来最具影响力的 AI 应用(如高度个性化的客户体验、生成式助手和行为风险模型)将依赖于新兴的、非传统的数据源,这些数据源提供更深入的上下文、情绪和意图。

具有前瞻性思维的企业可能会构建一个具有以下几个高潜力数据领域的数据产品组合:

  • 客户情绪和声誉信号: 收集和聚合净推荐值 (NPS)、呼叫中心情绪分析和社交媒体提及,供营销和客户体验团队使用,以微调外联并主动解决不满。
  • 同意日志和合规性元数据: 一种集中式产品,可跟踪所有客户选择加入/退出选择、数据使用标志和访问控制策略,这些策略直接集成到 AI 管道中,以确保实时策略执行。
  • 来自 LLM 的提示-响应日志和嵌入: 存储来自内部 LLM 副驾驶的每个提示-响应对,以及向量嵌入和人工反馈;支持持续模型调整,并有助于在审计期间解释 LLM 决策。
  • 生物识别和可穿戴传感器数据(在明确同意的情况下): 一种产品,可从同意客户的智能手表中提取生物识别数据,以帮助对动态承保的实时生活方式风险因素进行建模。
  • 外部丰富提要: 一种联合产品,可集成信用局数据、气候暴露模型、人口普查人口统计数据、地理位置数据集以及来自新闻、媒体和公共互联网来源的实时信号,以通过分层外部上下文(仅通过内部系统无法获得)来增强客户档案并锐化风险细分。

这些只是企业如何通过使用新颖的数据资产(领先于竞争对手)来保持行业领先地位并获得持续战略优势的一些示例。

向量化所有非结构化数据

随着企业采用数据产品思维模式,仅关注结构化数据集已远远不够。为了保持竞争力,组织还必须投资于面向未来的数据源,其中许多数据源是非结构化的,并且传统上难以使用。这些数据源包括无人机拍摄的镜头、卫星图像、博客文章、法律文件、聊天记录、医疗记录和客户电子邮件。虽然这些数据源包含丰富的见解,但由于它们缺乏易于解释和 AI 就绪所需的结构,因此通常会被忽略或未被充分利用。

企业必须将非结构化数据视为其数据产品组合的组成部分,并将其转换为 AI 就绪格式。

为了弥合这一差距,企业必须将非结构化数据视为其数据产品组合的组成部分,并将其转换为 AI 就绪格式。这涉及构建向量化管道,该管道使用文本和多模态嵌入模型将原始内容(如文档、电子邮件和成绩单)转换为 高维向量,以捕获语义含义。这些嵌入支持相似性搜索、语义聚类和 RAG 等操作。

更高级的用例包括跨模态搜索,用户可以使用自然语言查找相关视频或图像,从而实现“文本到视频”或“文本到图像”检索。嵌入后,可以将数据索引到向量数据库中,从而即使在大型非结构化内容存储库中也可以轻松搜索数据。

通过将非结构化数据视为一流的数据产品并投资于新兴数据类型,企业可以使以前无法访问的内容完全可供现代 AI 系统使用。结果是一个更智能、更具适应性的组织,可以搜索、总结和处理其所有数据,而不仅仅是行和列中的结构化字段。

嵌入沿袭、同意、可解释性和治理

当我们转向将数据视为产品时,产品质量必须包括沿袭、同意、可解释性和治理。这些不是可选功能;它们是定义数据产品是否可信、可重用和可部署在关键工作流程中的核心属性。

  • 沿袭 提供了必要的追溯性,以了解数据的来源、数据的转换方式以及数据如何在下游系统中流动。这种可见性对于调试、审计和评估可靠性至关重要。
  • 同意 确保数据得到适当使用,并符合法律、法规和用户定义的界限。数据产品必须执行细粒度的访问控制,以反映数据共享协议和隐私选择。
  • 可解释性 意味着下游消费者(无论是人类用户还是机器学习 (ML) 系统)都可以了解数据的生成方式、数据代表什么以及数据如何促成决策。这对于影响定价、索赔或客户互动的馈送模型尤其重要。
  • 治理 涵盖围绕每个数据产品的运营规范。必须到位并长期维护访问策略、使用合同、数据质量指标和审计日志。

通过在每个数据产品的设计和发布周期中启用这些实践,组织可以在扩展 AI 驱动的运营的同时,确保负责任的数据使用,并实现信任和问责制。

在结构化目录中发布数据产品

当数据被视为产品时,它必须像企业中的 其他任何产品一样 可发现、可理解和值得信赖。实现这一原则的核心部分是维护一个结构化、集中的数据目录,该目录为人类用户和 AI 系统提供对企业数据产品组合的访问权限。

该目录应:

  • 支持基于 GUI 的丰富探索,供浏览数据资产的利益相关者使用。
  • 通过标准化 API 访问(例如通过 MCP)实现与 AI 工具的无缝集成。
  • 包括丰富的元数据,用于描述数据产品是什么、它的结构以及它的用途。
  • 提供明确的所有权和管理信息、产品描述,以及对文档、使用指南和已知限制的引用。
  • 显示数据沿袭,显示数据来自何处、数据的转换方式以及哪些下游系统或 AI 模型使用它。

通过在目录中发布数据产品,组织可以建立对数据环境的共同理解,并将抽象的数据湖转变为可导航的、受信任的、经过精心策划的资产生态系统,从而使 AI 团队能够充满信心和清晰度地进行构建。

目录使团队能够避免冗余工作,促进可重用性,并支持更自信地采用 AI。数据科学家可以将特征追溯到其原始输入。分析师可以验证数据集是否适合其用例。工程师可以评估上游更改的影响。

管理速度和数量

随着企业转向将数据作为产品进行管理,他们正在遇到一个明显的运营挑战:许多这些新的数据产品都在实时更新,并且比传统数据集大得多。现代数据产品(尤其是那些由日志、传感器、视频或模型生成的内容构建的数据产品)达到数十或数百 TB 甚至 PB 级规模的情况并不少见。

数据量和速度的增加带来了新的技术要求。一些数据产品必须支持低延迟访问的持续更新。其他数据产品需要在大型分布式系统中并行扫描。许多数据产品必须保持经济高效的存储,但仍需提供快速访问以支持 AI 工作流程、分析或合规性需求。

至关重要的是,要将每个数据产品与满足其性能、延迟和可伸缩性需求的基础设施相匹配。

为了满足这些要求,企业需要一套广泛的数据引擎,这些引擎能够满足现代 AI 工作负载的需求。许多传统数据库和数据湖并非旨在适应 AI 系统所需的容量、速度和访问模式。因此,它们通常难以有效地服务于这些工作负载。没有一个引擎可以满足所有需求,因此至关重要的是,要将每个数据产品与满足其性能、延迟和可伸缩性需求的基础设施相匹配。

管理大容量和高速数据不仅仅需要添加工具,还需要一个集成的数据平台,该平台将各种数据引擎整合在一起,每个引擎都针对不同的访问模式进行了优化,例如搜索、聚合、实时更新和批量分析。

成功来自务实和有意为之。这包括:

  • 为每个数据产品选择正确的基础设施。
  • 监控其在不断变化的需求下的表现。
  • 随着需求的变化而调整架构。

一个支持各种工作负载的内聚平台可以在无需不必要的成本或运营复杂性的情况下实现一致的性能和可伸缩性。

从您的数据中获得最大价值

将数据视为产品(具有所有权、文档、版本控制和明确的目的)将帮助您从数据中获得最大价值。它创建了支持现代 AI、分析和自动化工作负载所需的基础。使数据工作与业务优先级保持一致可确保资源用于重要的成果,而结构化目录和精心选择的基础设施使数据在整个组织中更易于访问、扩展和重用。