他们好像在玩一种很新的东西: Embodied AI(4)Gato

139 阅读2分钟

在前几篇文章中,我们已经介绍了很多 embodied ai 方向相关的文章。这些文章大概的思路都基本是基于 pipeline 模式的,先做文本解析,然后将解析后得到的 prompt,找到对应 prompt 对应的 skill,按照skill 排列组合,找到得分最高的序列,然后在真实环境中执行。本文介绍的模型 Gato,打破了pipeline的魔咒,实现了端到端的 embodied ai。

介绍

前人的工作思路基本逃不过 nlp/cv + rl,设计思路也是pipeline模式。受到目前大规模语言模型(bert)训练思路的启发,本文提出了 Gato:一种多模态、多任务、多具象的全能行代理。这个模型可以实现多种不同的任务:image-caption、玩游戏、聊天、用机器人的手臂按下按钮、实现简单的任务等。

方法

gaoa 的输入可以是各种不同类型的数据:文本、图片、图片 + 问题、图片+ 提示 + action;这些输入的数据组合成batch,通过类型做不同的token处理,处理之后会经过一个language model(transformer)编码,通过最大似然函数训练得到最终目标。不同的任务输出不一样,所以在输出层前会有一个mask过程。整体框架如下图所示:

截屏2023-02-05 下午11.09.26.png 不过这里在游戏任务上,依然需要利用其他比较强的模型,预先生成好质量较高的训练数据,才达到预期效果。

总结

transformer 作为序列模型训练多任务、多具象策略任务(例如 文本对话、文本生成图像 和 robotic)非常有效,在一些 few-shot任务上表现也不错。未来 gato 或许可以用来构造很多任务的伪数据。 anyway, gato确实迈向了新的一步, 至少是摆脱了 pipeline 的魔咒。

开启掘金成长之旅!这是我参与 「掘金日新计划 · 2 月更文挑战」的第 5 天,点击查看活动详情