无直接数据可用,AI怎么学会「干活」?微软团队揭秘AI从语言到行动的进化之路

196 阅读10分钟

近年来,大语言模型(Large Language Models, LLMs)的迅猛发展推动了自然语言处理(NLP)领域的技术进步。这些模型在对话生成、文本翻译、知识问答和代码生成等任务中展现出卓越的性能。

然而,尽管 LLMs 可以通过语言生成为用户提供信息支持,其功能仍局限于文本层面,无法主动与物理或数字环境交互,或因缺乏领域知识和数据而导致生成的「动作」效果不佳。这种「语言 - 行动断层」阻碍了人工智能(AI)在许多实际场景中的广泛应用。

为解决这一核心问题,微软团队首次提出了一种完整的方法体系,详尽描述了在无直接可用数据的情况下如何从零开始训练一个大行动模型(Large Action Model, LAM),并将其逐步构建为可在真实环境中完成任务的智能体。

这一工作为 LAM 模型训练的奠定了基础,还为 AI 从被动语言生成主动行动生成的转变提供了新思路。

从语言到行动的必要演化

LLMs 的局限性

传统 LLMs,如 OpenAI 的 GPT 系列和 Mistral-7B,能够生成富有逻辑性和创意的文本内容,广泛应用于问答系统、代码补全、文案生成等任务中。然而,当用户的需求超越语言生成层面,例如操作软件、完成复杂的工作流程或直接操控物理设备时,这些模型便暴露出明显的不足。

这一局限性源于 LLMs 的设计初衷:它们被优化用于生成语言内容,而非执行行动。虽然 LLMs 在任务规划和意图理解方面表现出色,但它们缺乏行动生成所需的任务分解、环境交互和多步执行能力。 

LAM(大行动模型)具备三大特性:

  • 用户意图理解,能从多种输入(语言、语音、图像等)中准确解析意图并转化为具体可执行计划;

  • 行动生成能力,可根据环境将用户需求转化为 GUI 操作、API 调用、物理动作等多种形式的具体步骤;

  • 动态规划与适应,能够分解复杂任务,灵活应对环境变化,实时调整计划以完成目标。这些特性使 LAM 在复杂任务执行中表现出色。

图 1:从 LLM 到 LAM 的演化

从 LLMs 到 LAMs 的挑战

如图 1 所示,构建 LAMs 的核心挑战在于如何将模型从一个被动的文本生成器转变为能够在真实环境中执行复杂任务的主动行动生成器。这一转变不仅需要重新定义模型能力,还涉及从数据、训练方法到评估方式的全面革新:

  • 数据积累的难题

数据获取是训练 LAM 的最大挑战。LAM 需要大量任务 - 行动对数据来学习如何在不同环境中执行操作。然而,这类数据在实际应用中往往难以获取或批量收集。

  • 模型训练的重大转化

LAM 的开发需要从仅生成文本的 LLMs 转化为具备任务规划、动态执行和调整能力的模型。这不仅需要对模型架构进行深度改造,还需要采用全新的训练方法,以赋予模型行动生成与环境适配的能力。

  • 离线评估的局限性

在静态、受控环境中测试 LAM 的性能是必要的一步,用以验证其基础能力。然而,仅止步于离线评估无法真实反映模型在实际复杂场景中的表现。

  • 环境适配与线上评估的复杂性

LAM 需要实时与复杂、多样的数字或物理环境交互。这要求模型具备动态适应性,能够根据实时反馈调整行动。此外,在真实环境中进行线上评估,测试 LAM 的准确性、效率和任务完成效果,是验证其实际性能的关键环节。

针对上述挑战,微软团队首次提出并实现了一套完整的从 0 到 1 训练 LAM 模型的流程,涵盖了从数据积累、模型训练到实际部署的所有步骤。

该团队的方法不仅解决了「无数据」的初始瓶颈,还通过逐步迭代的方式,让模型从简单的任务规划能力成长为具备复杂行动生成能力的智能体。这一研究填补了现有领域的空白,为 LAMs 的开发提供了首个实践范例。

数据积累

从无到有构建 LAM 的第一步

在训练 LAM(大行动模型)时,数据积累是关键。与 LLMs(大语言模型)训练需要大量文本数据类似,LAM 的开发依赖高质量的任务 - 行动数据。

然而,这类数据在实际应用中非常稀缺,特别是领域专属和可执行的数据。为了克服这一瓶颈,该团队设计了一套从无到有的数据收集与处理流程,分为两大阶段:任务 - 计划数据收集任务 - 行动数据收集

图 2:任务 - 计划数据的收集过程

阶段一:任务 - 计划数据收集

如图 2 所示,任务 - 计划数据以用户请求为起点,生成任务描述及其对应的详细操作步骤。该团队从多种开源资源中收集任务 - 计划对,包括应用帮助文档(如 Microsoft Word 的帮助页面)、WikiHow 任务教程,以及用户的搜索查询记录。

通过这些来源,该团队构建了包含 76,672 对任务与计划的初始数据集,其中 29,182 对是直接获取的,47,490 对通过数据扩展技术生成。

此外,他们采用数据增强技术生成更多任务 - 计划对。通过 GPT-4o 演化原始任务,增加复杂性和约束条件,同时生成相应的计划,扩展数据集规模至原来的 150%。例如,「在 Excel 中创建下拉菜单」被演化为「创建依赖下拉菜单,并根据第一列选择过滤第二列内容」,从而提高模型对复杂任务的适应能力。

图 3:任务 - 行动数据收集过程

阶段二:任务 - 行动数据收集

任务 - 计划数据虽然用于高层次规划,但不能直接执行。如图 3 所示,为填补从规划到执行的差距,该团队通过以下步骤生成任务 - 行动数据:

  1. 实例化任务:利用预定义模板(如 Word 文档样例),将任务描述具体化,将抽象的计划步骤转化为具体的行动序列(如「点击菜单栏中的「设计」选项」)。

  2. 执行验证:在真实环境中执行实例化的任务,捕获执行轨迹和环境反馈,确保行动序列的可操作性和正确性。

  3. 评估与后处理:使用 GPT-4o 对执行结果进行验证,仅保留与任务目标一致的成功轨迹,并记录详细元数据(如环境状态和执行时间),最终生成结构化的任务 - 行动对。

这一流程最终生成了覆盖广泛操作场景的任务 - 行动数据集,为 LAM 训练提供了精确的行动模板,显著提升了模型在真实环境中的任务执行能力。

通过两阶段的逐步积累,成功地从「无数据」状态出发,构建了 LAM 训练所需的高质量任务 - 行动数据。这一方法不仅解决了数据稀缺问题,还通过引入真实环境交互和动态验证,确保数据的高效性和适用性,为从 LLMs 到 LAMs 的转变提供了坚实基础。

方法:从 0 到 1,逐步构建 LAM

如图 4 所示,构建 LAM 的过程分为四个阶段,涵盖了从数据积累到模型训练的完整工作流。

图 4:LAM 的训练过程

第一阶段:任务计划预训练

为了让模型具备基本的任务规划能力,首先训练模型生成任务分解计划。数据来源为任务 - 计划数据。模型的目标是根据输入任务生成正确的任务分解计划。例如,「在 Word 中插入表格」被分解为「点击插入菜单」、「选择表格选项」、「输入表格行列数」等步骤。这一阶段让模型掌握了任务分解的基本能力,为后续的行动生成打下了基础。

第二阶段:专家知识学习

尽管第一阶段的模型可以生成任务计划,但仍缺乏执行这些计划的能力。为此,需要利用收集到的任务 - 行动数据,并通过模仿学习训练模型执行具体操作。经过训练,模型从一个被动的计划生成器转变为能够执行计划的主动行动生成器。

第三阶段:自我探索提升

专家数据的覆盖范围有限,无法囊括所有可能的任务场景。为此,该团队设计了自我探索机制,将 LAM 部署在 UFO 中,UFO 是一个开源 GUI Agent 框架,能够通过交互 Windows 操作系统中的图形用户界面(GUI)元素来完成任务。让 LAM 尝试完成之前失败的任务,并从中积累新的成功经验。

  1. 任务挑战:模型尝试完成 2,284 个由 GPT-4 未解决的任务,通过动态探索生成可能的成功轨迹。

  2. 数据扩展:在自我探索中,模型生成了 496 条新成功轨迹,将其与之前的专家数据合并形成扩展数据集。

  3. 模型迭代:通过再次微调,模型进一步提升了处理复杂任务的能力,增强了对未知环境的适应性。

这一阶段实现了从无数据到新数据的自动生成与积累,扩展了训练数据的覆盖范围。

第四阶段:奖励模型优化

为了进一步提升模型的行动质量,在此引入了奖励模型(Reward Model, RM),同时利用正负反馈,通过强化学习优化 LAM 的决策能力。

实验结果

离线实验结果

表格 1:不同 LAM 训练阶段的离线实验结果

为了验证训练方法的有效性,该团队在 435 个任务上对不同阶段的 LAM 模型进行了离线测试。如表格 1 的实验结果显示,LAM 的各阶段的训练都带来了模型性能提升。

环境适配

图 5:LAM 智能体架构

如图 5 所示,经过训练的 LAM 模型被集成到 GUI 智能体 UFO 的 AppAgent 中作为推理引擎,后者充当桥梁,将 LAM 预测的动作「着地」为可执行的实际操作。

线上实验结果

表格 2:LAM 的线上实验结果

如表格 2 所示,LAM 在线上实验任务中成功率(TSR)方面表现优异,达到 71.0%,在文本输入模式下超越了基线模型(GPT-4o 和 GPT-4o Mini)。

效率对比

LAM 在任务完成时间和平均步时延上展现了显著优势:

  1. 任务完成时间:LAM 完成单个任务平均耗时仅 30.42 秒,相比之下,无视觉输入的 GPT-4o 耗时 86.42 秒,约为 LAM 的 2.84 倍,而带视觉输入的 GPT-4o 耗时更长,为 96.48 秒。

  2. 平均步时延:LAM 的每步时延为 5.41 秒,显著优于无视觉输入的 GPT-4o(12.84 秒)和带视觉输入的 GPT-4o(19.36 秒)。

更多细节,请参阅技术报告原文。