本次文章介绍英伟达的一篇工作: MINEDOJO,这篇工作在 vpt 的基础上做了一些改进。vpt是open ai 提出的工作,跟上文中一个模型打天下的思路类似,只用一个自回归模型,简单粗暴的根据输入的图像直接预测下一个动作。但是 vpt 没有指令的输入,而且依然依赖监督数据。
介绍
MINEDOJO: Building Open-Ended Embodied Agents with Internet-Scale Knowledge, 从名字就可以看出来,这篇工作的一大亮点就是运用了互联网上的海量数据。受到人类和真实环境交互学习过程的启发,作者采用上一篇文章 gato 三位一体学习多代理的思路,需要三个大模块: 多种不同的环境、大规模互联网知识、可灵活使用的代理处理器。为此,整理了 ”我的世界“游戏视频数据集、各种 tutorial、wiki 和论坛数据集。基于这个数据集,预训练了一个厉害的 image-language 匹配模型作为 reward 函数的反馈值。
模型
MINEDOJO 整体的模型框架如下图所示,比较重要的就是那个绿色的 MineClip, 因为主要还是基于 RL,所以设计一个好的打分函数很重要。于是作者仿照 clip 的思路,提出了 MineClip,MineClip是一个 image-language 匹配模型。输入 图片和文本表示,计算两者的相似度。图片encode是上文提到的用 video视频数据集无监督学习到, MineClip作为监督信号,直接会影响到最终采样的 action是否准确。
总结
最后的最后,不得不感慨英伟达的格局,他们居然将收集到的数据集全部开源出来了,在这个数据就是金钱的年代,真是太良心!
到目前为止,已经看了5篇 embodied ai 相关的文章,最大的触动就是可落地性。除此之外,从研究的角度看,似乎每个方向的天花板都是数据,最终的努力将从监督数据走向无监督大规模预料 + finetuning,而 embodied ai 方向,从视觉和文本多模态,结合 RL 的思路也很赞,就像 chatbot 一样,我本以为是平平无奇的对话系统,当看到它能根据文本指令反馈调整前几轮的文本输出时,真的有种 ai的时代来临的危机感。未来世界的运行模式,你可以大胆想象!
开启掘金成长之旅!这是我参与 「掘金日新计划 · 2 月更文挑战」的第 6 天,点击查看活动详情