煮火锅、调酒、炒菜......比起让机器人养老,机器人搭子或许更早到来

98 阅读9分钟

想象一下,周末的晚上你想在家吃火锅,刚把食材摆上桌,旁边的机器人就主动“搭手”。

先精准地把牛肉和青菜依次放入漏勺,煮好后稳稳提起,全程不用你操心;想喝鸡尾酒时,它还能根据你的口味,在吧台前熟练地倒伏特加、加果汁,甚至会主动问你:“要不要换成柠檬味的?”

这样的场景曾经是只能出现在赛博朋克2077里的科幻童话。

图片

直到谷歌炒菜机器人横空出世与春晚玉树机器人亮相,似乎让机器人养老也不再遥不可及。

图片

但这种“双系统”架构机器人目前仍有普遍存在的共性问题,即“知”与“行”相分离,使多数机器人思考和动手始终存在异步差距。

直到清华大学、复旦大学、上海期智研究院、上海人工智能实验室与千寻智能的研究成果发布,机器人养老不仅有望实现,甚至在本世代我们还有可能多一位真正的机器人宅家搭子。

通过AMiner对该项成果的学术调研,可以窥见OneTwoVLA的研究突破。

图片 来源:全球科技情报服务平台AMiner: www.aminer.cn/pub/682be5d…

近日,清华大学、复旦大学联合上海人工智能实验室、千寻智能等机构发布的最新研究成果OneTwoVLA,正让这类“机器人搭子”的能力大幅升级。

从“手忙脚乱”到“有条不紊”:机器人的“知行合一”难题

在过去的机器人世界里, “想”和“做” 曾经是两道难以逾越的鸿沟。

传统方法往往将机器人系统拆分成两个独立部分:一个负责“慢思考”的高层推理系统(类似人类的大脑),另一个负责“快行动”的底层执行系统(类似人类的四肢)。

这种“双系统”架构就像让两个语言不通的人合作。高层系统可能规划出“把可乐从冰箱拿出来”的任务,却没考虑到冰箱门的开合角度是否在机械臂的工作范围内;底层系统执行时一旦遇到突发情况,比如可乐罐打滑,高层系统可能因为反应延迟,无法及时给出修正指令。

这种“知行分离”的问题在复杂任务中尤为突出。

比如让机器人制作一杯鸡尾酒,传统双系统可能会出现这样的混乱。高层系统规划了“先加糖浆,再加橙汁,最后倒伏特加”的步骤,却没注意到橙汁瓶的位置被移动过;底层机械臂尝试抓取时打滑,高层系统却因为延迟,直到机械臂已经碰到杯子才发出“调整抓握”的指令,最终导致液体洒出。

更麻烦的是,这种分离架构还会导致机器人“学新东西”的效率极低。

每次遇到新任务,都需要分别对两个系统进行大量训练,就像让一个人同时学两种毫不相干的技能。

科学家们很早就意识到了这个问题。诺贝尔奖得主 丹尼尔·卡尼曼提出的“双系统思维”理论指出, 人类的认知其实是“快思考”(直觉反应)和“慢思考”(逻辑推理)的结合,两者无缝协作才能完成复杂任务。

图片 来源:全球科技情报服务平台AMiner: www.aminer.cn/profile/548…

但如何让机器人也具备这种“知行合一”的能力?过去的尝试要么让机器人“只会蛮干不会想”,要么陷入“想太多做太少”的低效循环,始终无法在推理能力和执行效率之间找到平衡。

OneTwoVLA:给机器人一个“会思考的巧手”

近期,由清华大学、复旦大学、上海期智研究院、上海人工智能实验室与千寻智能联合研发的OneTwoVLA, 创新性地将传统双系统“熔铸”为集推理与行动于一体的统一模型,目前该项目的代码与数据已全面开源。

图片 来源:全球科技情报服务平台AMiner: www.aminer.cn/pub/682be5d…

OneTwoVLA的核心突破,在于将传统的“双系统”合二为一,打造出一个能同时「推理」和「行动」的统一模型。

图片 OneTwoVLA运作过程总览

这个模型就像给机器人装上了一个“会思考的巧手”,在执行任务时,它会根据不同阶段的需求,自动切换“慢思考”和“快行动”模式。

具体来说,当机器人遇到关键节点时, 比如完成一个子任务、检测到错误或需要人类指令时,OneTwoVLA会触发 “推理模式” ,即用自然语言生成场景描述、任务计划和下一步指令。

比如在煮火锅时,完成“放入牛肉”的步骤后,它会“想”:“现在漏勺里有牛肉,接下来需要加青菜,青菜在盘子的右边,应该先移动机械臂到盘子上方……”

而在非关键节点, 它则会基于最近的推理结果,直接进入 “行动模式” ,快速生成抓取、移动等具体动作。

这种自适应切换机制,既避免了传统双系统的延迟问题,又不会因为持续“思考”而降低效率。

图片 OneTwoVLA在两种模式下的推理流程

实验显示,OneTwoVLA的推理过程仅占总任务时间的8.7%-10.4%,几乎不影响整体执行速度。

为了让这个统一模型“见多识广”,研究团队还设计了一套独特的训练方法。他们不仅用真实的机器人操作数据进行训练,还通过大语言模型Gemini 2.5 Pro和文本生成图像模型FLUX.1-dev,合成了1.6万组包含“具身推理”的视觉——语言数据。

这些数据就像机器人的“虚拟练习册”,里面有各种场景的描述和任务规划。

通过同时学习真实操作和虚拟推理,OneTwoVLA的“理解能力”大幅提升。即使遇到训练数据中没有的物品(比如没见过的“雪碧”饮料),它也能通过推理正确识别并完成抓取。

图片 左图:机器人推理过程的数据示例; 右图:合成的具身推理导向视觉-语言数据示例

从实验室到生活:机器人搭子的四大“超能力”

OneTwoVLA的实力,在一系列高难度任务中得到了充分验证。

图片 机器人在不同难度操作任务中的表现

在长周期任务规划方面,它能有条不紊地完成“番茄炒蛋”这样的复杂流程: 先倒油,再倒蛋液和番茄,煮好后用勺子盛到盘子里,整个过程成功率达到87%,比传统单系统模型π0高出30%,比双系统模型高出24%。

图片

在长周期任务上的评估结果

更厉害的是,它还能根据人类的抽象需求灵活调整。比如听到“帮我准备一杯能提神的饮料”,就会推理出“制作椰子拿铁”的计划,自动完成加椰奶、倒浓缩咖啡、加冰块等步骤。

在错误检测与恢复方面,OneTwoVLA展现出了类似人类的“应变能力”。煮火锅时,如果机械臂没抓稳漏勺,它会立刻“意识到”错误,推理出“先缩回机械臂,调整角度再重试”的策略;倒油时油瓶滑落,它会“想”到“握紧力度不够”,然后调整抓握姿势重新尝试。

而传统模型要么对错误 “视而不见”,要么因为系统延迟错过最佳修复时机。

图片 机器人在煮火锅中面临人类临时要求时的反应

人机交互能力则让OneTwoVLA更像一个“贴心搭子”。当人类在它煮火锅时突然说“再加点白菜”,它会立刻回应:“好的,你想要白菜、金针菇还是香菇?”

在调鸡尾酒时,如果人类临时要求“不要橙味伏特加,换成柠檬味”,它能迅速调整计划,放下手中的橙味酒,去拿柠檬味伏特加,整个过程自然流畅。

而传统双系统模型常常在交互中“断片”,比如只记得换酒,却忘了继续完成调制步骤。

图片

机器人在视觉理解任务中的表现示例

视觉理解能力更是OneTwoVLA的“杀手锏”。它能准确理解“把盘子前面的勺子递给我”(空间关系)、“给我那个红色的杯子”(物体属性)、“拿一个用来挖土的工具”(语义特征)等不同类型的指令。

在“开放世界”测试中,面对训练数据里没有的物品(如GoPro相机、美国队长模型), 它仍能通过推理正确识别,成功率达到73%,而传统模型几乎无法完成这类任务。

机器人搭子,离我们还有多远?

OneTwoVLA的诞生,标志着机器人迈向“通用化”的关键一跃——从实验室里调酒、煮火锅的灵巧助手,到未来家庭中真正的全能“生活搭子”。这项研究不仅实现了技术突破,更开创了一种全新的机器人学习范式:融合统一模型与具身推理数据,让机器人“手脑协同”,达成真正的“知行合一”。

当然,要把这位搭子带回千万家,还有几重难关要克服:提升模型在复杂动态环境下的鲁棒性、优化对人类模糊指令的自然理解能力,以及大幅降低硬件成本。但正如研究所展现的,当机器人能像人类般“思考-行动-反馈”,并在煮火锅、调鸡尾酒等日常协作中展现默契,我们有理由期待:那个能与你“边做饭边聊天”的伙伴,到来之日或许比想象中更近。

未来的周末夜晚,我们或许只需窝在沙发里,而机器人搭子娴熟地处理好食材,摇晃着酒杯问道:“今天想尝尝新口味鸡尾酒吗?” 这并非科幻场景,而是正在发生的技术图景。OneTwoVLA开启的,正是人机协作新纪元的序章。


这里是AMiner数据平台——全球领先的学术数据挖掘与分析平台,您身边的科研助手,有关学术趋势洞察、学者网络分析问题都可以与我们探讨!

网站链接:www.aminer.cn/?f=fwh_am_…

image.png

或直接关注【AMiner Research】公众号,获取最新的AI前沿研究、行业动态和学者信息!