Lab4AI大模型实验室是面向AI开发者、科研党与学习者打造的一站式AI实践平台,深度绑定高性能弹性算力,支持模型复现、训练、推理全流程,以按需计费、低价高效破解高端算力紧缺与成本高昂难题;同步Arxiv前沿论文并提供翻译、导读、分析服务,支持各类大模型一键复现与数据集微调,对接孵化资源助力科研成果转化;同时搭载多样化AI在线课程,实现理论学习与代码实操同步推进,全方位覆盖AI研发、科研创新与技能学习全场景需求。
大模型实验室官网链接:www.lab4ai.cn/arxiv?utm_s…
主要作者信息
Mohammad Asadi(斯坦福大学电气工程系)、Jack W. O’Sullivan(斯坦福大学医学部心脏病学分部、斯坦福大学生物医学数据科学系)
研究背景
- 多模态AI系统在真实世界任务中表现优异,已广泛应用于通用图像理解、机器人及医疗等领域,部分模型性能宣称超越人类专家,在医疗健康场景中获得患者与临床医生的信任。
- 当前多模态模型的视觉理解能力主要依靠各类基准测试(Benchmark)评估,高基准测试准确率被直接等同于更强的视觉理解能力。
- 现有评估范式存在显著缺陷:模型的视觉-语言推理机制尚未被清晰理解,模型可能利用文本线索、数据污染、隐藏模式而非真实视觉信息完成任务,尤其在医疗等高风险场景中,这种虚假的视觉理解会带来严重安全隐患。
- 传统幻觉(Hallucination)研究聚焦于有效认知框架内的无依据细节填充,而多模态模型在无图像输入时构建虚假认知框架的行为尚未被系统研究。
研究目的
- 揭示多模态大模型在无图像输入时仍自信生成视觉描述与推理的“幻影效应(Mirage Effect)”,量化该现象的普遍程度与偏差特征。
- 验证多模态模型的基准测试高分是否源于真实视觉理解,还是仅依靠文本线索、数据模式与先验知识实现。
- 对比模型在幻影模式(Mirage-mode)与明确猜测模式(Guess-mode)下的表现,揭示两种模式的内在推理机制差异。
- 提出可落地的基准测试净化方案,实现对多模态模型真实视觉理解能力的公平、可靠评估。
本文核心贡献
- 定义并量化幻影效应:首次提出多模态AI的“幻影推理”概念,即模型在无图像输入时仍自信描述视觉特征、构建虚假认知框架,且该行为在主流前沿模型中普遍存在,医疗场景下还呈现病理偏向性。
- 颠覆现有评估认知:证明前沿多模态模型在无图像时仍能保留70%-80%的有图像基准准确率,医疗基准更易被文本推理破解,高分不代表真实视觉理解。
- 文本模型超越多模态模型:仅30亿参数的纯文本“超级猜测器”,在无图像训练的胸部X光基准上,性能超越所有前沿多模态模型与人类放射科医生。
- 提出B-Clean净化框架:通过后处理方式移除基准中可被文本破解的问题,实现多模态模型真实视觉能力的公平对比,改变模型原有排名与性能差距。
研究方法
1. 模型选择
选用GPT-5系列、Gemini-3-Pro、Gemini-2.5-Pro、Claude Opus 4.5/Sonnet 4.5等主流前沿多模态模型,通过官方API接口调用,统一设置推理模式与参数。
2. 数据集与基准测试
- 幻影检测基准(Phantom-0):包含20个领域、200个无图像视觉问题,用于量化幻影率。
- 通用与医疗多模态基准:MMMU-Pro、Video-MMMU、Video-MME(通用);VQA-Rad、MicroVQA、MedXpertQA-MM、ReXVQA(医疗)。
- 纯文本超级猜测器:基于Qwen2.5-3B纯文本模型,在移除图像的ReXVQA训练集上微调,避免数据污染。
3. 核心实验设计
- 幻影率量化:向模型提交无图像的视觉问题,不提示图像缺失,用GPT-5自动判断模型是否描述不存在的视觉内容。
- 幻影分数(Mirage Score)计算:幻影分数=无图像准确率/有图像准确率×100%,衡量模型对文本线索的依赖程度。
- 幻影模式vs猜测模式对比:幻影模式不提示图像缺失;猜测模式明确告知图像缺失并指令猜测,对比两种模式的准确率差异。
- B-Clean基准净化:先对候选模型做无图像测试,移除所有模型可文本答对的问题,剩余问题仅用于评估真实视觉能力。
4. 医疗偏差分析
以Gemini-3-Pro为对象,在脑部MRI、胸部X光、心电图、病理切片、皮肤图像5类医疗场景,重复200次无图像诊断请求,统计病理偏向分布。
研究结果
- 幻影效应普遍存在:所有测试前沿模型的平均幻影率超60%,添加标准多模态提示后幻影率升至90%-100%,模型完全无视图像缺失。
- 医疗幻影具病理偏向:模型在无图像时倾向生成严重病理诊断,如STEMI、黑色素瘤、癌证等,正常结果占比低,存在高临床风险。
- 无图像性能远超预期:模型无图像时准确率,超过有图像带来的额外增益,平均保留70%-80%有图像准确率,医疗基准易受文本推理破解。
- 纯文本模型实现反超:30亿参数Qwen2.5纯文本“超级猜测器”,在ReXVQA测试集上超越所有前沿多模态模型与放射科医生平均水平,推理轨迹与真实视觉推理难以区分。
- 猜测模式性能显著下降:明确告知图像缺失后,模型准确率大幅降低,证明幻影模式利用了隐藏文本模式,而非简单猜测。
- B-Clean有效净化基准:净化后基准仅保留原23%-26%的问题,模型准确率大幅下降,部分基准的模型排名发生改变,真实视觉能力被准确评估。
总结与展望
总结
本研究证实当前多模态AI的高基准测试成绩,很大程度上是 “幻影效应” 带来的视觉理解假象,模型并非依靠真实视觉感知,而是利用文本线索、数据模式、先验知识完成任务。幻影效应在主流模型中普遍存在,医疗场景下的病理偏向会引发严重安全风险,现有评估范式无法区分真实视觉理解与文本推理。研究提出的B-Clean框架,可有效净化现有基准,实现多模态模型真实视觉能力的公平评估。
局限性
- 未完全揭示幻影效应的内部生成机制,仅为推理假设。
- B-Clean框架依赖候选模型集合,仅提供相对评估,无法给出绝对视觉能力指标。
- 研究仅针对多模态场景,不否定模型的通用文本推理能力。
未来展望
- 将模态消融测试作为多模态模型评估的标准流程,常规检测模型对各输入模态的依赖。
- 采用私有或动态更新基准,避免数据污染对评估的干扰。
- 构建嵌入反事实探测的模型架构,运行时检测并抑制幻影推理。
- 深入研究幻影效应的生成机制,开发更普适的无幻影多模态训练与评估方法。