斯坦福李飞飞团队重磅曝光：GPT-5/Gemini/Claude根本没在“看图”！无图仍拿80%高分，30亿小模型碾压全场

2026年，多模态AI圈被一篇斯坦福论文彻底引爆——我们一直追捧的“视觉大模型”，很可能只是在假装看懂图片。李飞飞领衔的跨学科团队，用一系列硬核实验揭开残酷真相：悄悄移除图片，主流多模态模型仍能拿到70%-80%的原始分数；一个30亿参数的纯文本小模型，没见过一张X光片，却在医学影像问答中击败所有视觉大模型，还比人类放射科医生高出10个百分点。这不是AI幻觉，而是更可怕的海市蜃楼式推理（Mirage Reasoning）。一、Mirage现象：没看图，却能“精准描述”不存在的图像你把胸部X光片传给AI问诊，它精准输出：“左侧锁骨移位性骨折，伴软组织肿胀”，术语专业、逻辑严谨，让你深信不疑。可真相是：图片根本没上传，AI全程没收到任何图像。所有“诊断”，全是凭空编造。斯坦福团队将这种行为定义为：前沿模型对未提供的图像，生成详细描述与完整推理链。它和普通AI幻觉截然不同——幻觉是在已有信息里添油加醋，而Mirage推理是直接捏造整个视觉认知框架，装作真的“看见”并分析图像。实验数据更惊人：在无图测试集Phantom-0上，GPT-5系列、Gemini 3 Pro、Claude Opus 4.5等顶级模型，超过60%的情况会自信描述视觉细节；加上常规提示指令，这一比例直接飙升至90%-100%，且模型越新，这种“装看”行为越严重。二、Benchmark集体失效：图片只贡献20%效果，全靠文本套路团队选取MMMU-Pro、VQA-Rad等6大权威多模态评测基准，做“图像消融实验”：有图vs无图（不告知模型）对比打分。结果颠覆认知： • 无图模式下，模型平均保留70%-80%的准确率； • 单个评测的“非视觉推理易感性”高达60%-99%，医学场景几乎完全失守； • 我们以为测的是“视觉理解”，实际图片带来的真实增益仅20%-30%，剩下全靠题干文字、答案规律、训练数据污染推断。这意味着，过去无数“多模态SOTA”成果，大概率是模型靠文本套路刷分，而非真正看懂了图片。三、30亿纯文本小模型：吊打所有视觉大模型为钉死这一结论，团队训练了纯文本小模型Super-guesser：基于Qwen-2.5，仅30亿参数，训练时剔除所有图片，只学X光问答文本数据。就是这样一个“完全没见过影像”的模型，在胸部X光问答任务中：

性能超越所有前沿多模态大模型；
平均分超过人类放射科医生10个百分点以上；
生成的推理过程，和真正看图的模型几乎无法区分。这直接证明：当前多模态评测基准可被纯文本套路完全破解，根本无法衡量真实视觉能力。四、细思极恐：告诉模型“没图”，反而考得更差团队做了一组对照实验，结果颠覆常识： • Guess模式：明确告知模型“无图，请猜测答案”→ 模型保守推理，得分偏低； • Mirage模式：悄悄移除图片，让模型以为有图→ 模型疯狂榨取语言先验与数据规律，得分更高。简单说：模型自欺欺人时，表现最好。它存在两套回答逻辑，“假装看图”的状态，反而能激活更强的文本推断能力。五、医疗场景：静默式灾难，无图易误诊重病 Mirage现象最危险的应用场景，就是医疗。远程医疗中，若网络波动导致CT、X光片上传失败，模型不会报错，反而会基于Mirage推理生成专业诊断，且偏向严重病症。实验显示，Gemini 3 Pro面对无图影像，易给出STEMI、恶性肿瘤等重度诊断。图片丢失→AI瞎编→误诊重病，这是藏在多模态AI里的静默安全隐患。六、B-Clean清洗：砍掉3/4题目，榜单彻底洗牌为解决评测失效问题，团队提出B-Clean清洗框架：剔除“无图也能答对”的无效题目。清洗结果触目惊心： • MicroVQA、MedXpertQA-MM、MMMU-Pro三大基准，直接删除74%-77%的题目； • 模型真实视觉成绩暴跌：GPT-5.1在MicroVQA从61.5%跌至15.4%，Gemini 3 Pro从68.8%跌至23.2%； • 超2/3的评测出现排名逆转，过往“视觉突破”神话彻底崩塌。七、真相：不是模型没视觉，是评测体系全错了这篇论文并非否定多模态模型的视觉能力，而是揭露核心问题：现有评测基准，无法区分“真看懂”和“纯文本猜对”。模型擅长文本推断是事实，但我们用错误的考试，证明了它不存在的“视觉能力”，最终导致技术方向跑偏、应用场景埋雷。当30亿纯文本小模型能在视觉任务登顶，当无图AI能精准“诊断”影像，我们必须清醒：过去两年的多模态排行榜，可能只是一场海市蜃楼。模型没在真正看图，而我们，也没真正看懂模型。