视觉AI终于"开窍"了！谷歌扔了20年的钥匙，何恺明联手引爆Transformer革命4月25日讯科技圈今日迎来重大突

4月25日讯科技圈今日迎来重大突破——谷歌DeepMind联合何恺明、谢赛宁、Jonathan T. Barron等全球顶尖学者，正式发布视觉AI领域的颠覆性成果"Vision Banana"。这一成果被业界称为计算机视觉的"哥白尼革命"。

过去二十年，计算机视觉领域遵循着"分而治之"的铁律：看图的模型和画图的模型泾渭分明，检测、分割、生成各有一套专用架构和流水线。工程师们为每种视觉能力配备一把"钥匙"，看似高效，实则臃肿。

但Vision Banana来了，直接扔掉了所有专用工具。

"一个模型统治所有视觉任务，不管问什么视觉问题，答案都是一张图。"项目团队介绍道。其核心理念直击传统范式："理解，本质上只是生成过程中的一次对齐。"

何恺明作为ResNet作者，与谢赛宁、NeRF先驱Jonathan T. Barron、3D图形学名家Thomas Funkhouser等全球顶尖学者联手，将这一理念付诸实践。基于Nano Banana Pro基础模型，团队采用极简主义的"指令微调"策略，将具备"可逆格式"的任务数据像催化剂般混入训练集。

实验数据显示，Vision Banana在GenAI-Bench（文本生图）中获得53.5%的人类评估胜率，在ImgEdit（图像编辑）中获得47.8%的胜率，在视觉生成与理解任务上实现SOTA，尤其在极端遮挡、复杂场景理解等任务上优势明显。

"统一不意味着妥协，打破了'万能工具不如专用工具'的诅咒。"项目团队表示。

这一成果的行业意义深远：机器人不再需要复杂路径规划，只需在脑中"生成"成功取物像素序列并去对齐物理现实；与谷歌Gemini形成"双螺旋"——Gemini统一文本/多模态理解，Vision Banana统一视觉理解/生成，两者接通形成真正意义上的"世界模型"雏形。

从专用到通用，从理解到想象，视觉AI走到了与NLP七年前相同的路口。这一次，"钥匙"只有一把，这把"香蕉"，太狠了。