Do As I Can, Not As I Say--读论文报告

161 阅读6分钟

一、研究背景与问题提出

1.1 大语言模型的潜力与局限

大语言模型(LLMs)如 GPT-3、PaLM 等能够编码丰富的世界语义知识,这对于需要理解自然语言指令的机器人来说具有巨大潜力。然而,LLMs 缺乏真实世界经验,无法感知物理环境和自身能力限制,导致其生成的指令可能不可行或不安全。例如,当被问及如何清理洒出的饮料时,LLM 可能建议使用吸尘器,但这在机器人没有吸尘器或无法操作的情况下是不现实的。

1.2 机器人执行任务的挑战

机器人需要执行长期、抽象的自然语言指令时,面临两个关键问题:

  1. 任务理解:如何将高层指令分解为机器人可执行的低层技能。

  2. 物理接地:如何确保这些技能在当前环境中可行。

传统方法要么依赖预定义规则,要么直接使用 LLM 生成指令,但都无法有效解决上述问题。

二、核心方法:SayCan 框架

2.1 方法概述

SayCan(Do As I Can, Not As I Say)的核心思想是通过预训练技能的价值函数(affordance functions)将 LLM 接地到真实世界,使 LLM 生成的指令既符合任务语义又具备物理可行性。该框架结合了 LLM 的任务理解能力和价值函数的世界接地能力,形成 "Say"(语言模型)和 "Can"(技能可行性)的协同机制。

2.2 关键组件与技术细节

(1)大语言模型(Say)

  • 任务分解:LLM 将高层自然语言指令 i 分解为低层技能序列,计算每个技能描述ℓπ​与指令的相关性概率p(ℓπ​∣i),即 "任务接地"。
  • 提示工程:通过精心设计的提示(包含示例对话和技能描述)引导 LLM 输出结构化的技能序列,如 "I would: 1. find a sponge, 2. pick up the sponge, ..."。

(2)价值函数(Can)

  • 技能可行性评估:使用强化学习(RL)训练语言条件价值函数p(cπ​∣s,ℓπ​),表示从状态 s 执行技能ℓπ​的成功概率,即 "世界接地"。
  • 马尔可夫决策过程(MDP):定义状态空间 S、动作空间 A、转移函数 P、奖励函数 R(成功为 1,失败为 0),通过时间差分(TD)方法学习 Q 函数Qπ(s,a),并将其转换为成功概率。

(3)协同决策机制

  • 概率融合:将 LLM 的任务相关性概率与价值函数的可行性概率相乘,得到最终技能选择概率:
    π=argmaxπ∈Π​p(cπ​∣s,ℓπ​)⋅p(ℓπ​∣i)
  • 迭代执行:每次选择最优技能执行后,更新环境状态并将已执行技能追加到指令中,重复此过程直至完成(输出 "done")。

2.3 机器人系统实现

(1)低层技能训练

  • 行为克隆(BC):使用 BC-Z 方法从人类演示中学习视觉 - 运动控制策略,适用于拾取、放置等基础技能。
  • 强化学习(RL):采用 MT-Opt 框架在模拟环境中训练语言条件策略,通过 RetinaGAN 实现模拟到真实的迁移。
  • 多任务学习:训练共享网络的多任务策略,通过语言嵌入条件化不同技能。

(2)技能与环境配置

  • 技能集合:551 个技能覆盖 7 个技能族(拾取、放置、导航等)和 17 种物体,如 "pick up the coke can"、"go to the table"。
  • 实验环境:办公室厨房场景,包含 15 种常见物体和 5 个语义位置(柜台、桌子、垃圾桶等)。

三、实验设计与结果分析

3.1 实验设置

  • 机器人平台:Everyday Robots 的移动 manipulator,7 自由度机械臂 + 双指 gripper。
  • LLM 选择:540B 参数的 PaLM(默认),对比 FLAN(137B)、不同规模 PaLM(8B、62B)。
  • 评估指标
    1. 计划成功率:人类评估生成的技能序列是否能完成任务。
    2. 执行成功率:机器人实际执行任务的成功比例。

3.2 主要实验结果

(1)整体性能

  • 模拟厨房:计划成功率 84%,执行成功率 74%。
  • 真实厨房:计划成功率 81%,执行成功率 60%,显示良好的泛化能力。

(2)消融实验

  • 无价值函数(No VF):仅使用 LLM 评分,计划成功率 67%,低于 SayCan 的 84%,证明世界接地的重要性。
  • 无 LLM(BC NL/BC USE):直接使用策略或嵌入匹配,成功率接近 0%,验证 LLM 任务分解的必要性。
  • 生成式基线(Generative):使用 LLM 生成指令后投影到最近技能,计划成功率 74%,低于 SayCan 且缺乏可解释性。

(3)语言模型规模影响

  • PaLM-SayCan vs FLAN-SayCan:PaLM 在计划成功率(84% vs 70%)和执行成功率(74% vs 61%)上显著优于 FLAN,表明更大的 LLM 能提升机器人性能。
  • 规模效应:PaLM 540B vs 62B/8B,更大模型在复杂任务(如长 horizon、否定推理)上优势更明显。

3.3 新能力验证

(1)抽屉操作技能集成

  • 新增技能:"open the drawer"、"put object in drawer" 等,通过添加提示和价值函数快速集成。
  • 实验结果:计划成功率 100%,执行成功率 33%(受机械臂操作精度限制)。

(2)思维链推理(Chain of Thought)

  • 提示改进:添加 "Explanation" 环节引导 LLM 进行逻辑推理,如处理否定指令("bring a drink without caffeine")。
  • 效果:成功处理需要推理的任务,如选择无咖啡因的 lime soda。

(3)多语言支持

  • 跨语言能力:PaLM 预训练于多语言语料,支持中文、法语、西班牙语指令,计划成功率无显著下降。

四、核心贡献与创新点

  1. 接地机制创新:首次提出通过价值函数将 LLM 接地到机器人能力,解决传统方法中语义与物理脱节的问题。

  2. 协同决策框架:将 LLM 的任务理解与 RL 的可行性评估概率融合,形成可解释的规划过程。

  3. 大规模实证验证:在 101 个真实任务上验证 SayCan 的有效性,证明其在长 horizon、抽象指令上的优势。

  4. 技术通用性:支持技能快速集成、多语言交互和模型规模扩展,为机器人 - 语言交互提供可扩展框架。

五、局限性与未来工作

5.1 现有局限

  1. LLM 固有偏差:继承 LLM 的训练数据偏差,如处理否定、歧义引用时的困难。
  2. 技能覆盖不足:依赖预训练技能库,复杂动作(如精细操作)成功率低。
  3. 失败恢复机制缺失:技能执行失败时无法动态调整计划。

5.2 未来方向

  1. 双向提升:利用机器人真实经验反哺 LLM 训练,改善其物理常识推理能力。

  2. 技能扩展:开发更鲁棒的技能学习方法,扩展可执行任务范围。

  3. 闭环规划:结合环境反馈(如成功检测器)实现动态重规划,如 Huang et al. 的 "Inner Monologue" 方法。

  4. 多模态融合:整合视觉、触觉等传感器数据增强环境理解。

六、关键资源

        SayCan 框架成功将大语言模型的语义知识与机器人的物理能力结合,通过价值函数实现高效的任务规划与执行。

  • 项目网站(包含视频、代码和演示)say-can.github.io/
  • 开源环境:Colab 实现的桌面场景,使用 UR5 机器人和 CLIPort 策略。