一、研究背景与问题提出
1.1 大语言模型的潜力与局限
大语言模型(LLMs)如 GPT-3、PaLM 等能够编码丰富的世界语义知识,这对于需要理解自然语言指令的机器人来说具有巨大潜力。然而,LLMs 缺乏真实世界经验,无法感知物理环境和自身能力限制,导致其生成的指令可能不可行或不安全。例如,当被问及如何清理洒出的饮料时,LLM 可能建议使用吸尘器,但这在机器人没有吸尘器或无法操作的情况下是不现实的。
1.2 机器人执行任务的挑战
机器人需要执行长期、抽象的自然语言指令时,面临两个关键问题:
-
任务理解:如何将高层指令分解为机器人可执行的低层技能。
-
物理接地:如何确保这些技能在当前环境中可行。
传统方法要么依赖预定义规则,要么直接使用 LLM 生成指令,但都无法有效解决上述问题。
二、核心方法:SayCan 框架
2.1 方法概述
SayCan(Do As I Can, Not As I Say)的核心思想是通过预训练技能的价值函数(affordance functions)将 LLM 接地到真实世界,使 LLM 生成的指令既符合任务语义又具备物理可行性。该框架结合了 LLM 的任务理解能力和价值函数的世界接地能力,形成 "Say"(语言模型)和 "Can"(技能可行性)的协同机制。
2.2 关键组件与技术细节
(1)大语言模型(Say)
- 任务分解:LLM 将高层自然语言指令 i 分解为低层技能序列,计算每个技能描述ℓπ与指令的相关性概率p(ℓπ∣i),即 "任务接地"。
- 提示工程:通过精心设计的提示(包含示例对话和技能描述)引导 LLM 输出结构化的技能序列,如 "I would: 1. find a sponge, 2. pick up the sponge, ..."。
(2)价值函数(Can)
- 技能可行性评估:使用强化学习(RL)训练语言条件价值函数p(cπ∣s,ℓπ),表示从状态 s 执行技能ℓπ的成功概率,即 "世界接地"。
- 马尔可夫决策过程(MDP):定义状态空间 S、动作空间 A、转移函数 P、奖励函数 R(成功为 1,失败为 0),通过时间差分(TD)方法学习 Q 函数Qπ(s,a),并将其转换为成功概率。
(3)协同决策机制
- 概率融合:将 LLM 的任务相关性概率与价值函数的可行性概率相乘,得到最终技能选择概率:
π=argmaxπ∈Πp(cπ∣s,ℓπ)⋅p(ℓπ∣i) - 迭代执行:每次选择最优技能执行后,更新环境状态并将已执行技能追加到指令中,重复此过程直至完成(输出 "done")。
2.3 机器人系统实现
(1)低层技能训练
- 行为克隆(BC):使用 BC-Z 方法从人类演示中学习视觉 - 运动控制策略,适用于拾取、放置等基础技能。
- 强化学习(RL):采用 MT-Opt 框架在模拟环境中训练语言条件策略,通过 RetinaGAN 实现模拟到真实的迁移。
- 多任务学习:训练共享网络的多任务策略,通过语言嵌入条件化不同技能。
(2)技能与环境配置
- 技能集合:551 个技能覆盖 7 个技能族(拾取、放置、导航等)和 17 种物体,如 "pick up the coke can"、"go to the table"。
- 实验环境:办公室厨房场景,包含 15 种常见物体和 5 个语义位置(柜台、桌子、垃圾桶等)。
三、实验设计与结果分析
3.1 实验设置
- 机器人平台:Everyday Robots 的移动 manipulator,7 自由度机械臂 + 双指 gripper。
- LLM 选择:540B 参数的 PaLM(默认),对比 FLAN(137B)、不同规模 PaLM(8B、62B)。
- 评估指标:
- 计划成功率:人类评估生成的技能序列是否能完成任务。
- 执行成功率:机器人实际执行任务的成功比例。
3.2 主要实验结果
(1)整体性能
- 模拟厨房:计划成功率 84%,执行成功率 74%。
- 真实厨房:计划成功率 81%,执行成功率 60%,显示良好的泛化能力。
(2)消融实验
- 无价值函数(No VF):仅使用 LLM 评分,计划成功率 67%,低于 SayCan 的 84%,证明世界接地的重要性。
- 无 LLM(BC NL/BC USE):直接使用策略或嵌入匹配,成功率接近 0%,验证 LLM 任务分解的必要性。
- 生成式基线(Generative):使用 LLM 生成指令后投影到最近技能,计划成功率 74%,低于 SayCan 且缺乏可解释性。
(3)语言模型规模影响
- PaLM-SayCan vs FLAN-SayCan:PaLM 在计划成功率(84% vs 70%)和执行成功率(74% vs 61%)上显著优于 FLAN,表明更大的 LLM 能提升机器人性能。
- 规模效应:PaLM 540B vs 62B/8B,更大模型在复杂任务(如长 horizon、否定推理)上优势更明显。
3.3 新能力验证
(1)抽屉操作技能集成
- 新增技能:"open the drawer"、"put object in drawer" 等,通过添加提示和价值函数快速集成。
- 实验结果:计划成功率 100%,执行成功率 33%(受机械臂操作精度限制)。
(2)思维链推理(Chain of Thought)
- 提示改进:添加 "Explanation" 环节引导 LLM 进行逻辑推理,如处理否定指令("bring a drink without caffeine")。
- 效果:成功处理需要推理的任务,如选择无咖啡因的 lime soda。
(3)多语言支持
- 跨语言能力:PaLM 预训练于多语言语料,支持中文、法语、西班牙语指令,计划成功率无显著下降。
四、核心贡献与创新点
-
接地机制创新:首次提出通过价值函数将 LLM 接地到机器人能力,解决传统方法中语义与物理脱节的问题。
-
协同决策框架:将 LLM 的任务理解与 RL 的可行性评估概率融合,形成可解释的规划过程。
-
大规模实证验证:在 101 个真实任务上验证 SayCan 的有效性,证明其在长 horizon、抽象指令上的优势。
-
技术通用性:支持技能快速集成、多语言交互和模型规模扩展,为机器人 - 语言交互提供可扩展框架。
五、局限性与未来工作
5.1 现有局限
- LLM 固有偏差:继承 LLM 的训练数据偏差,如处理否定、歧义引用时的困难。
- 技能覆盖不足:依赖预训练技能库,复杂动作(如精细操作)成功率低。
- 失败恢复机制缺失:技能执行失败时无法动态调整计划。
5.2 未来方向
-
双向提升:利用机器人真实经验反哺 LLM 训练,改善其物理常识推理能力。
-
技能扩展:开发更鲁棒的技能学习方法,扩展可执行任务范围。
-
闭环规划:结合环境反馈(如成功检测器)实现动态重规划,如 Huang et al. 的 "Inner Monologue" 方法。
-
多模态融合:整合视觉、触觉等传感器数据增强环境理解。
六、关键资源
SayCan 框架成功将大语言模型的语义知识与机器人的物理能力结合,通过价值函数实现高效的任务规划与执行。
- 项目网站(包含视频、代码和演示):say-can.github.io/
- 开源环境:Colab 实现的桌面场景,使用 UR5 机器人和 CLIPort 策略。