Do As I Can, Not As I Say--读论文报告一、研究背景与问题提出 1.1 大语言模型的潜力与局限

一、研究背景与问题提出

1.1 大语言模型的潜力与局限

大语言模型（LLMs）如 GPT-3、PaLM 等能够编码丰富的世界语义知识，这对于需要理解自然语言指令的机器人来说具有巨大潜力。然而，LLMs 缺乏真实世界经验，无法感知物理环境和自身能力限制，导致其生成的指令可能不可行或不安全。例如，当被问及如何清理洒出的饮料时，LLM 可能建议使用吸尘器，但这在机器人没有吸尘器或无法操作的情况下是不现实的。

1.2 机器人执行任务的挑战

机器人需要执行长期、抽象的自然语言指令时，面临两个关键问题：

任务理解：如何将高层指令分解为机器人可执行的低层技能。
物理接地：如何确保这些技能在当前环境中可行。

传统方法要么依赖预定义规则，要么直接使用 LLM 生成指令，但都无法有效解决上述问题。

二、核心方法：SayCan 框架

2.1 方法概述

SayCan（Do As I Can, Not As I Say）的核心思想是通过预训练技能的价值函数（affordance functions）将 LLM 接地到真实世界，使 LLM 生成的指令既符合任务语义又具备物理可行性。该框架结合了 LLM 的任务理解能力和价值函数的世界接地能力，形成 "Say"（语言模型）和 "Can"（技能可行性）的协同机制。

2.2 关键组件与技术细节

（1）大语言模型（Say）

任务分解：LLM 将高层自然语言指令 i 分解为低层技能序列，计算每个技能描述ℓπ与指令的相关性概率p(ℓπ∣i)，即 "任务接地"。
提示工程：通过精心设计的提示（包含示例对话和技能描述）引导 LLM 输出结构化的技能序列，如 "I would: 1. find a sponge, 2. pick up the sponge, ..."。

（2）价值函数（Can）

技能可行性评估：使用强化学习（RL）训练语言条件价值函数p(cπ∣s,ℓπ)，表示从状态 s 执行技能ℓπ的成功概率，即 "世界接地"。
马尔可夫决策过程（MDP）：定义状态空间 S、动作空间 A、转移函数 P、奖励函数 R（成功为 1，失败为 0），通过时间差分（TD）方法学习 Q 函数Qπ(s,a)，并将其转换为成功概率。

（3）协同决策机制

概率融合：将 LLM 的任务相关性概率与价值函数的可行性概率相乘，得到最终技能选择概率：
π=argmaxπ∈Πp(cπ∣s,ℓπ)⋅p(ℓπ∣i)
迭代执行：每次选择最优技能执行后，更新环境状态并将已执行技能追加到指令中，重复此过程直至完成（输出 "done"）。

2.3 机器人系统实现

（1）低层技能训练

行为克隆（BC）：使用 BC-Z 方法从人类演示中学习视觉 - 运动控制策略，适用于拾取、放置等基础技能。
强化学习（RL）：采用 MT-Opt 框架在模拟环境中训练语言条件策略，通过 RetinaGAN 实现模拟到真实的迁移。
多任务学习：训练共享网络的多任务策略，通过语言嵌入条件化不同技能。

（2）技能与环境配置

技能集合：551 个技能覆盖 7 个技能族（拾取、放置、导航等）和 17 种物体，如 "pick up the coke can"、"go to the table"。
实验环境：办公室厨房场景，包含 15 种常见物体和 5 个语义位置（柜台、桌子、垃圾桶等）。

三、实验设计与结果分析

3.1 实验设置

机器人平台：Everyday Robots 的移动 manipulator，7 自由度机械臂 + 双指 gripper。
LLM 选择：540B 参数的 PaLM（默认），对比 FLAN（137B）、不同规模 PaLM（8B、62B）。
评估指标：
1. 计划成功率：人类评估生成的技能序列是否能完成任务。
2. 执行成功率：机器人实际执行任务的成功比例。

3.2 主要实验结果

（1）整体性能

模拟厨房：计划成功率 84%，执行成功率 74%。
真实厨房：计划成功率 81%，执行成功率 60%，显示良好的泛化能力。

（2）消融实验

无价值函数（No VF）：仅使用 LLM 评分，计划成功率 67%，低于 SayCan 的 84%，证明世界接地的重要性。
无 LLM（BC NL/BC USE）：直接使用策略或嵌入匹配，成功率接近 0%，验证 LLM 任务分解的必要性。
生成式基线（Generative）：使用 LLM 生成指令后投影到最近技能，计划成功率 74%，低于 SayCan 且缺乏可解释性。

（3）语言模型规模影响

PaLM-SayCan vs FLAN-SayCan：PaLM 在计划成功率（84% vs 70%）和执行成功率（74% vs 61%）上显著优于 FLAN，表明更大的 LLM 能提升机器人性能。
规模效应：PaLM 540B vs 62B/8B，更大模型在复杂任务（如长 horizon、否定推理）上优势更明显。

3.3 新能力验证

（1）抽屉操作技能集成

新增技能："open the drawer"、"put object in drawer" 等，通过添加提示和价值函数快速集成。
实验结果：计划成功率 100%，执行成功率 33%（受机械臂操作精度限制）。

（2）思维链推理（Chain of Thought）

提示改进：添加 "Explanation" 环节引导 LLM 进行逻辑推理，如处理否定指令（"bring a drink without caffeine"）。
效果：成功处理需要推理的任务，如选择无咖啡因的 lime soda。

（3）多语言支持

跨语言能力：PaLM 预训练于多语言语料，支持中文、法语、西班牙语指令，计划成功率无显著下降。

四、核心贡献与创新点

接地机制创新：首次提出通过价值函数将 LLM 接地到机器人能力，解决传统方法中语义与物理脱节的问题。
协同决策框架：将 LLM 的任务理解与 RL 的可行性评估概率融合，形成可解释的规划过程。
大规模实证验证：在 101 个真实任务上验证 SayCan 的有效性，证明其在长 horizon、抽象指令上的优势。
技术通用性：支持技能快速集成、多语言交互和模型规模扩展，为机器人 - 语言交互提供可扩展框架。

五、局限性与未来工作

5.1 现有局限

LLM 固有偏差：继承 LLM 的训练数据偏差，如处理否定、歧义引用时的困难。
技能覆盖不足：依赖预训练技能库，复杂动作（如精细操作）成功率低。
失败恢复机制缺失：技能执行失败时无法动态调整计划。

5.2 未来方向

双向提升：利用机器人真实经验反哺 LLM 训练，改善其物理常识推理能力。
技能扩展：开发更鲁棒的技能学习方法，扩展可执行任务范围。
闭环规划：结合环境反馈（如成功检测器）实现动态重规划，如 Huang et al. 的 "Inner Monologue" 方法。
多模态融合：整合视觉、触觉等传感器数据增强环境理解。

六、关键资源

SayCan 框架成功将大语言模型的语义知识与机器人的物理能力结合，通过价值函数实现高效的任务规划与执行。

项目网站（包含视频、代码和演示）：say-can.github.io/
开源环境：Colab 实现的桌面场景，使用 UR5 机器人和 CLIPort 策略。