视觉AI终于"开窍"了!谷歌扔了20年的钥匙,何恺明联手引爆Transformer革命

0 阅读2分钟

4月25日讯 科技圈今日迎来重大突破——谷歌DeepMind联合何恺明、谢赛宁、Jonathan T. Barron等全球顶尖学者,正式发布视觉AI领域的颠覆性成果"Vision Banana"。这一成果被业界称为计算机视觉的"哥白尼革命"。

过去二十年,计算机视觉领域遵循着"分而治之"的铁律:看图的模型和画图的模型泾渭分明,检测、分割、生成各有一套专用架构和流水线。工程师们为每种视觉能力配备一把"钥匙",看似高效,实则臃肿。

但Vision Banana来了,直接扔掉了所有专用工具。

"一个模型统治所有视觉任务,不管问什么视觉问题,答案都是一张图。"项目团队介绍道。其核心理念直击传统范式:"理解,本质上只是生成过程中的一次对齐。"

何恺明作为ResNet作者,与谢赛宁、NeRF先驱Jonathan T. Barron、3D图形学名家Thomas Funkhouser等全球顶尖学者联手,将这一理念付诸实践。基于Nano Banana Pro基础模型,团队采用极简主义的"指令微调"策略,将具备"可逆格式"的任务数据像催化剂般混入训练集。

实验数据显示,Vision Banana在GenAI-Bench(文本生图)中获得53.5%的人类评估胜率,在ImgEdit(图像编辑)中获得47.8%的胜率,在视觉生成与理解任务上实现SOTA,尤其在极端遮挡、复杂场景理解等任务上优势明显。

"统一不意味着妥协,打破了'万能工具不如专用工具'的诅咒。"项目团队表示。

这一成果的行业意义深远:机器人不再需要复杂路径规划,只需在脑中"生成"成功取物像素序列并去对齐物理现实;与谷歌Gemini形成"双螺旋"——Gemini统一文本/多模态理解,Vision Banana统一视觉理解/生成,两者接通形成真正意义上的"世界模型"雏形。

从专用到通用,从理解到想象,视觉AI走到了与NLP七年前相同的路口。这一次,"钥匙"只有一把,这把"香蕉",太狠了。