上下文是下一代数据平台——而上下文图谱是理解流程的关键

41 阅读7分钟

假期里,围绕“上下文图谱(context graphs)”出现了不少热烈的讨论,这股热潮源自 @JayaGup10 和 @ashugarg 关于“AI 的万亿美元机会:上下文图谱”的那篇帖子。在 Glean,我们对此感到兴奋——因为它终于有了一个名字:上下文图谱不只理解你的数据,还理解你的公司实际上是如何运转的。

我们正处在这样一个阶段:企业内几乎一切都已被数字化——决策与结构化数据被记录在系统化的记录系统(systems of record)里,而日常工作则在沟通工具、项目管理系统、代码仓库等各种系统中展开。

上下文图谱让企业里“工作真正是如何完成的”变得清晰,从而使自动化成为可能。随着智能体(agents)兴起,并具备推理与行动能力,自动化将迎来一次重大解锁——但前提是,这种推理必须扎根于正确的企业上下文之中。

随着 AI 进步,上下文必须演进

Glean 的创立基于这样一种认知:卓越的搜索是上下文的基础。这意味着理解内容——对非结构化数据进行索引,让员工能在全企业范围内搜索,并快速找到最新且最相关的信息,比如最新的设计文档、政策更新或客户备注,用来回答问题或推进被卡住的任务。

但随着 AI 开始承担更复杂的工作,我们意识到这一基础需要扩展。仅理解企业数据本身还不够;系统还需要“关系知识”。企业中工作如何被完成,从根本上是由关系驱动的——例如知道谁负责某个客户账号、谁审批合同、哪个工程师值班、或当事故升级时哪些团队会协同。

RPA 与工作流工具一直试图自动化组织中那些最容易被理解的流程,但绝大多数工作是分布式的——由个人和小团队完成,流程往往只以“部落知识(tribal knowledge)”的形式存在。我们如何把这绝大多数工作纳入自动化范畴,并让智能体学习并自动化这些工作?这正是上下文图谱发挥作用的地方。

上下文图谱的核心:捕捉流程的现实,以实现工作自动化

Glean 对上下文图谱的进一步提炼是:“你无法可靠地捕捉‘为什么(why)’,但你可以捕捉‘怎么做(how)’。”

“为什么”往往是一个思考步骤,通常只存在于某个人的脑海里——你无法真正对它建模。有时它会在会议纪要或 Slack 讨论串里有所暗示,但其中很大一部分从未以清晰、可持久的方式被写下来。

相反,“怎么做”会留下丰富的数字足迹:重复出现的步骤、数据更新、审批、协作模式、字段变化,以及跨系统行为在时间维度上的演化。经过许多轮循环,这些流程痕迹会逼近“为什么”——你可以从工作反复被完成的方式模式中推断动机与理由,而不是试图字面意义上存储每一个人的想法。

基于这一点,上下文图谱背后的目标就变成了:先捕捉“怎么做”(流程),再随着时间推移学习“为什么”(意图)。如果智能体要在企业中自动化真实工作,那么路径就是对流程进行深度建模,以理解工作在什么条件下继续、暂停或升级;这样当下一次类似情境出现时,智能体就能判断应采取的正确行动。

上下文图谱是一项技术投入

要建立这种程度的知识与理解并不容易。构建上下文图谱很难:

  • 可观测性(通过连接器与应用) :要全面理解企业里发生了什么,不能只依赖来自记录系统的干净、结构化的决策数据。还需要对工作真正发生的连接器与应用具备可观测性——既要有广度去覆盖员工使用的众多工具上的活动,也要有深度从每个连接器中提取有意义的信号。举例来说,一个连接到 Salesforce 的连接器可能暴露“商机阶段变化”这类信息,但真正的可观测性还来自于同时看到跨关联应用的活动:在 Google Docs 中编辑的文档、在 Slack 里发送的消息、在 Calendar 里创建的会议,或在 Salesforce 中更新的记录——这些都需要通过各自的连接器从底层系统直接采集。
  • 理解活动数据:除了对内容建立索引,系统还必须捕捉更底层的活动信号:在工具中发生的离散、带时间戳的动作。例如文档编辑、字段更新、添加评论、发送 Slack 消息、上传文件等。按时间顺序捕捉这些动作,并跟踪它们之间的状态变化,就能形成原始的活动数据。
  • 推导更高层次的任务、项目与计划的理解:只有在收集了这些原子级活动数据之后,系统才可能开始推断更高层次的结构。在大量低层动作之上,结合模式识别与语义理解——例如反复的文档编辑、协调一致的 Slack 消息、对同一记录的频繁更新——可以聚合成“任务”“项目”或更宏大的“计划(initiative)”的信号。比如,连续几天内的文档创建与编辑、Slack 消息、记录更新,这些跨系统的序列可能共同代表一次客户入职推进或一次产品发布,即使这些工作从未在任何单一系统中被明确标注。

在企业环境中,将信号与噪声分离非常困难。以 @Glean 为例,我们对任务理解的准确率达到约 80%——这表明要让它可行,上游技术链路必须足够强大。更值得注意的是:由于面向企业,上下文图谱并不是在互联网规模上构建的。数据无法跨客户聚合;而且受隐私约束,最终数据集既更小、也无法被人类直接访问——因此必须通过算法来推断图谱。

上下文图谱是构成下一代数据平台的基础技术套件之一

尽管上下文图谱目前获得了最多关注,但在 @Glean 我们知道,解决上下文不能依赖单一技术。要真正理解流程,需要一整套技术栈协同:用于观测跨工具活动的连接器、用于快速检索的索引、用于建模企业结构与关系的图谱,以及用于记录智能体实际执行工作过程的记忆(memory)。正是这套技术栈,使系统能够从原始的企业数据走向“可以行动的智能体”。

当智能体开始在企业中运作时,“学习”就变得至关重要。对人类有效的方法,并不总能直接迁移到智能体身上。通过捕捉执行轨迹(execution traces)——智能体如何使用工具、按什么顺序、产生什么结果——系统可以从真实的智能体工作实践中学习。这些轨迹构成企业记忆,记录随着时间推移哪些做法对智能体真正有效。流程理解并非仅来自上下文图谱本身;它来自结构化理解与学习到的行为的结合。

当你退一步把这些层次整体看清——连接器、索引、图谱,以及个人与企业记忆——你会意识到,你实际上已经构建了一个全新的数据平台。它不是为报表或分析而设计,而是作为智能体自动化的骨干:一个能够观测工作如何发生、从执行实践中学习,并让智能体在全企业范围内可靠推进工作的系统。

上下文是智能体工作的基础

Jaya 和 Ashu 那篇帖子的核心问题,其实是:我们如何让智能体在企业中成功把工作做成?它们如何学习、理解并像你的企业一样运作?如果智能体要承担更多工作,这个机会就取决于一套上下文基础设施——它必须理解你的企业数据、你的关系网络,以及你的流程。

112.jpeg