GenAI:唤醒企业的“自我意识”

41 阅读6分钟

“自我感知”企业能用全部数据回答任何问题。得益于GenAI和向量存储,通过RAG、统一平台、知识图谱及数据质量管理实现,提升决策和运营智能。

译自:Building a Self-Aware Enterprise With GenAI

作者:Ed Huang

企业正处于一场巨大变革的边缘。从某种意义上说,它即将变得“自我感知”。

我这话是什么意思?目前,企业通过分析其捕获、转换和存储的数据来了解自身。选择这些数据决定了什么可以被了解,什么不能。企业只能理解它事先决定要理解的东西。这并非我所说的“自我感知”。

在我看来,一个真正“自我感知”的企业,是能够访问即席分析可能需要的任何组织数据的企业。它能回答关于自身的任何问题——即使是以前没有人想到要问的问题。其运营的任何细节都不应超出其可及范围。

由于两项关键创新,这种情况比几年前任何人想象的都更接近现实。首要的便是生成式AI(GenAI)的大规模商业化——特别是大型语言模型(LLM),它使得使用自然语言提示分析数据变得轻而易举。其次是可扩展的向量数据存储。这不仅能保存企业数据,还能使其可用于GenAI应用中的语义搜索。向量数据存储并非新鲜事物,但高度可扩展的存储是。当你存储一个自我感知企业所需的海量数据时,规模至关重要。

理想的最终状态是让所有企业数据都可供你的AI访问。

这种方法通常被称为检索增强生成(RAG),开发者用它来创建AI驱动的聊天机器人或专家问答系统。在这种情况下,企业本身就是主题:其区域销售、招聘记录、开支、函件、季度计划和产品开发时间表。理论上,一切都可以通过LLM进行查询。通过这个界面,可以回答企业中任何一个人可能被问到的任何问题。

迈向自我感知型企业

自我感知转型的基本组件如今已可获得。将其付诸实施需要细心、准备以及跨职能团队的投入。在共同努力时,请牢记以下几项原则。

避免创建新的数据孤岛

碎片化在自我感知型企业中没有立足之地。简洁和优雅应是你的座右铭。你的RAG应用可能需要同时处理向量化数据(支持语义搜索)和结构化企业数据(需要某种形式的关键词搜索)。

理想情况下,你会部署一个AI代理,它能够分析提示,判断“这部分需要语义搜索,那部分需要SQL查询”,检索适当的数据,并用LLM将其整合起来。

语义搜索对文本文档和多媒体文件等非结构化数据影响最大。这些是非向量化的理想候选。但许多有用的材料存在于传统的结构化数据中。想想事务记录和时间序列数据:订单、用户、日志文件。你可以部署一个专门的向量数据库来存储你的嵌入,但将数据维护在不同的系统上往往会产生摩擦和盲点。

对于大多数企业来说,更有效的方法是将数据整合到一个统一平台,该平台可以以向量和关系格式存储数据,并支持语义搜索以及关键词搜索和SQL查询。

优先考虑安全和隐私

你需要一种方法来确保不同用户对敏感信息拥有不同级别的访问权限。不幸的是,这个问题没有万能的解决方案。最终的解决方案可能依赖于AI。目前,大多数企业依靠角色基访问控制(RBAC)和属性基访问控制(ABAC)的组合来管理权限。你希望尽可能统一身份,在源头强制执行权限并记录所有操作。优先选择那些为这些功能提供细粒度控制并允许你“自带云”(BYOC)以最大限度地提高一致性的数据系统。

在向量化之前通过LLM预处理非结构化数据

对于PDF、演示文稿和其他非结构化格式,不要仅仅向量化原始内容。使用LLM提取和结构化关键信息——例如摘要、表格和实体——以提高语义质量并确保更具意义的检索。

例如,你可以使用SQL兼容的数据库作为原始数据的持久化和索引中心,并使用Kafka和Flink流式传输和处理数据,然后将其发送到LLM,LLM提取摘要和实体并将其存储回SQL数据存储中。

构建可查询的知识图谱

一旦你整合了结构化和非结构化数据,考虑构建一个知识图谱,它编码语义关系并作为LLM的补充上下文来源。这个图谱也可以驻留在统一数据平台中,并暴露SQL和图接口,从而丰富生成过程中的检索和推理质量。换句话说,提前处理你的结构化数据,以增强向量数据存储中非结构化数据的语义搜索。

TiDB这样的现代SQL兼容数据库可以直接存储图数据结构以支持混合查询,这有助于保持强一致性和高可用性。

投资数据质量和查询行为的可观测性

在开发过程中,至关重要的是要将可观测性融入数据管道,包括监控数据洁净度、知识图谱的结构和演变,以及查询的有效性和性能。这确保了系统随着企业使用规模的扩大而保持可信、可解释且易于迭代。

制定数据质量计划

并非所有数据都同等重要。企业数据存储不可避免地包含大量过时、废弃或相互矛盾的文档,包括维基、PDF、幻灯片和草稿。如果不对其进行仔细整理就将其纳入知识库,必然会给下游LLM应用带来噪音、错误信息和混淆。你需要一项策略来优先处理权威数据源并解决冲突。

结论

自我感知型企业近在咫尺,但实现它需要的不仅仅是技术。它需要清晰的架构、严谨的数据卫生和打破技术及组织孤岛的决心。拥抱这一转变的企业将获得强大的能力:提出更好问题、更快做出决策并以曾难以想象的内省智能水平进行运营。在一个优势流向信息最灵通者的世界里,自我感知不仅仅是一种美德。它是一种竞争优势。