2026年,多模态AI圈被一篇斯坦福论文彻底引爆——我们一直追捧的“视觉大模型”,很可能只是在假装看懂图片。 李飞飞领衔的跨学科团队,用一系列硬核实验揭开残酷真相:悄悄移除图片,主流多模态模型仍能拿到70%-80%的原始分数;一个30亿参数的纯文本小模型,没见过一张X光片,却在医学影像问答中击败所有视觉大模型,还比人类放射科医生高出10个百分点。 这不是AI幻觉,而是更可怕的海市蜃楼式推理(Mirage Reasoning)。 一、Mirage现象:没看图,却能“精准描述”不存在的图像 你把胸部X光片传给AI问诊,它精准输出:“左侧锁骨移位性骨折,伴软组织肿胀”,术语专业、逻辑严谨,让你深信不疑。 可真相是:图片根本没上传,AI全程没收到任何图像。所有“诊断”,全是凭空编造。 斯坦福团队将这种行为定义为:前沿模型对未提供的图像,生成详细描述与完整推理链。它和普通AI幻觉截然不同——幻觉是在已有信息里添油加醋,而Mirage推理是直接捏造整个视觉认知框架,装作真的“看见”并分析图像。 实验数据更惊人:在无图测试集Phantom-0上,GPT-5系列、Gemini 3 Pro、Claude Opus 4.5等顶级模型,超过60%的情况会自信描述视觉细节;加上常规提示指令,这一比例直接飙升至90%-100%,且模型越新,这种“装看”行为越严重。 二、Benchmark集体失效:图片只贡献20%效果,全靠文本套路 团队选取MMMU-Pro、VQA-Rad等6大权威多模态评测基准,做“图像消融实验”:有图vs无图(不告知模型)对比打分。 结果颠覆认知: • 无图模式下,模型平均保留70%-80%的准确率; • 单个评测的“非视觉推理易感性”高达60%-99%,医学场景几乎完全失守; • 我们以为测的是“视觉理解”,实际图片带来的真实增益仅20%-30%,剩下全靠题干文字、答案规律、训练数据污染推断。 这意味着,过去无数“多模态SOTA”成果,大概率是模型靠文本套路刷分,而非真正看懂了图片。 三、30亿纯文本小模型:吊打所有视觉大模型 为钉死这一结论,团队训练了纯文本小模型Super-guesser:基于Qwen-2.5,仅30亿参数,训练时剔除所有图片,只学X光问答文本数据。 就是这样一个“完全没见过影像”的模型,在胸部X光问答任务中:
- 性能超越所有前沿多模态大模型;
- 平均分超过人类放射科医生10个百分点以上;
- 生成的推理过程,和真正看图的模型几乎无法区分。 这直接证明:当前多模态评测基准可被纯文本套路完全破解,根本无法衡量真实视觉能力。 四、细思极恐:告诉模型“没图”,反而考得更差 团队做了一组对照实验,结果颠覆常识: • Guess模式:明确告知模型“无图,请猜测答案”→ 模型保守推理,得分偏低; • Mirage模式:悄悄移除图片,让模型以为有图→ 模型疯狂榨取语言先验与数据规律,得分更高。 简单说:模型自欺欺人时,表现最好。它存在两套回答逻辑,“假装看图”的状态,反而能激活更强的文本推断能力。 五、医疗场景:静默式灾难,无图易误诊重病 Mirage现象最危险的应用场景,就是医疗。 远程医疗中,若网络波动导致CT、X光片上传失败,模型不会报错,反而会基于Mirage推理生成专业诊断,且偏向严重病症。实验显示,Gemini 3 Pro面对无图影像,易给出STEMI、恶性肿瘤等重度诊断。 图片丢失→AI瞎编→误诊重病,这是藏在多模态AI里的静默安全隐患。 六、B-Clean清洗:砍掉3/4题目,榜单彻底洗牌 为解决评测失效问题,团队提出B-Clean清洗框架:剔除“无图也能答对”的无效题目。 清洗结果触目惊心: • MicroVQA、MedXpertQA-MM、MMMU-Pro三大基准,直接删除74%-77%的题目; • 模型真实视觉成绩暴跌:GPT-5.1在MicroVQA从61.5%跌至15.4%,Gemini 3 Pro从68.8%跌至23.2%; • 超2/3的评测出现排名逆转,过往“视觉突破”神话彻底崩塌。 七、真相:不是模型没视觉,是评测体系全错了 这篇论文并非否定多模态模型的视觉能力,而是揭露核心问题: 现有评测基准,无法区分“真看懂”和“纯文本猜对”。 模型擅长文本推断是事实,但我们用错误的考试,证明了它不存在的“视觉能力”,最终导致技术方向跑偏、应用场景埋雷。 当30亿纯文本小模型能在视觉任务登顶,当无图AI能精准“诊断”影像,我们必须清醒: 过去两年的多模态排行榜,可能只是一场海市蜃楼。模型没在真正看图,而我们,也没真正看懂模型。