既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上物联网嵌入式知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、电子书籍、讲解视频,并且后续会持续更新
VIMA将多模态提示用于任务规范
VIMA能做什么?场景事例
如下图,输入指令「把形状一样的物品放到绿色碗(图片)里」给VIMA。
VIMA通过分析自然语言提示和图像提示,识别出所有物品的位置,找到形状一样的两个圆柱体,再找到和绿色碗,最后操作机械臂一次一次把两个圆柱体放到了碗里。
如下图,输入指令「把图示物品(彩虹方块)扫到图示物品(红框)内,不触碰图示物品(黄线)。」给VIMA,系统识别出所有物件的位置,随后按照指示操作机械臂把彩虹方块扫到红框里,不触碰黄线。
最后来看这个例子。
我们甚至可以在prompt教给它新的视觉概念,输入指令「这是一个zup <灰色方框图片>,这是一个blicket <灰色十字图片>。将blicket放进zup里。」
VIMA识别到所有物体后,操作机械臂执行相应动作。
机械臂系统的组成结构
VIMA主要由以下几个部分组成:
- Transformer编码器和解码器:用于对多模态提示进行编码和机器人臂的控制进行解码。
- 视觉和语言模块:用于处理视觉和语言输入,并将它们转换为Transformer可以处理的令牌序列。
- 动作执行器:用于将机器人臂的控制信号转换为物理动作,并将其发送到机器人控制器。
- 数据集和基准:用于评估和比较不同的机器人学习方法,并提供训练和测试数据。
- 物理仿真器:用于在虚拟环境中模拟机器人的行为,并提供快速的反馈和调试机制。
这些组件共同构成了VIMA的核心部分,使得它能够接收多模态提示并执行各种机器人任务。
在VIMA中,GPT-3模型在第一部分被用作解码器,用于生成导航指令,以指导机器人在环境中执行导航任务。具体来说,VIMA-GPT是一个仅包含解码器的架构,它通过对多模态提示进行编码,自回归地解码给定指令和交互历史的下一个动作,控制机器臂的运动。连接硬件后的VIMA成为了“一个具有体现性的AI代理:它可以感知环境并逐步在物理世界中采取行动。”Fan说到。
软硬件结合的AI系统能做什么
团队共实现了17个不同的任务,分为6大类:简单物体操作(Simple object manipulation)、视觉目标达成(Visual goal reaching)、新概念理解(Novel concept grounding)、单次视频模仿(One-shot video imitation)、视觉约束满足(Visual constraint satisfaction)、视觉推理(Visual reasoning)。
Fan在他的推文中提及:“多模态提示使得任务规范对用户来说更加容易和灵活。通过一个单一的模型,VIMA将视觉目标达成、从视频演示中进行一次性模仿、学习新概念以及满足安全约束等多种任务统一起来。而在以前的工作中,每个任务都需要不同的训练流程。”
作为一个机器人控制的框架,VIMA可以扩展成为极其强大的工具。像是一个实体的小爱同学,在学习完所有的步骤和物品之后,它可以你成为现实生活里的左膀右臂,例如:
- 家务。告诉它你想吃西红柿炒鸡蛋,VIMA在厨房里找到材料、开火、放糖(北方同学大喜),自动化炒菜。
- 教育。在学校的自习课替老师回答问题,并在黑板上拿粉笔写笔记,为学生提供定制练习和反馈。
- 娱乐。投篮后每次替你捡球送水的女同学,一个VIMA机器人就能替代,甚至更体贴。
当然,上面的例子过于理想了,但并不是不可能实现。
模型结构:编码-解码转换器
结语
VIMA作为一个仍在开发中的基础模型,为智能机械体的发展方向指明了更切实的发展方向。它有可能使机器人更智能、更有用。而如此强大的工具将其所有内容全部开源:代码、预训练模型、数据集和物理仿真基准都可以免费获取和使用!代码的透明度和可重复性被提高,更多的人可以使用和改进VIMA框架,促进了合作和知识共享,这对推动机器人学习领域的发展起到了巨大的作用。
将机器人和LLM整合,相当于让机器人有了大脑!长期来说,利好智能设备的功能增强,短期来说,B站上如稚晖君的一批知名UP主,又可以整活了。
参考链接:
推荐阅读:
▶香港高校陆续拥抱 ChatGPT;iPhone 14 被用户吐槽电池老化;Firefox 116 发布|极客头条
▶重磅!全球云原生技术顶会KubeCon China 2023详细议程公布!
▶室温超导真要来了?一文读懂来龙去脉
收集整理了一份《2024年最新物联网嵌入式全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升的朋友。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人
都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!