编者按: 当多模态模型不断朝着更大参数、更长推理路径的方向演进时,我们是否忽略了“轻量、高效、实用”这一同样重要的维度?今天为大家带来的文章,作者的观点是:通过精细化数据设计与混合推理策略,可以训练出一款在性能与成本之间实现理想平衡的小型多模态推理模型。
文章围绕微软最新开源的 Phi-4-reasoning-vision-15B 展开,系统阐述了该模型的研发初衷与关键设计决策。作者首先指出,当前多模态模型普遍追求更大规模,导致训练与推理成本高企,限制了其在资源受限或实时交互场景中的应用。为此,他们选择了一条“更小、更快”的技术路径,仅使用 200B 多模态 token 进行训练,显著低于同类模型的万亿级 token 消耗。
在技术实现上,文章重点讨论了三个核心方面:一是架构选择,采用“中期融合”方案,在利用预训练语言模型的同时兼顾跨模态推理效率;二是数据处理,强调数据质量优先于规模,通过开源数据清洗、合成数据生成与领域数据配比实验,提升了模型在数学、科学及计算机操作等任务上的表现;三是训练策略,创新性地将 20% 的推理数据与 80% 的非推理数据混合训练,使模型能根据任务类型灵活选择是否启用推理路径,从而在保证准确率的前提下有效控制输出 token 数量与延迟。
作者 | Jyoti Aneja, Michael Harrison, Neel Joshi, Tyler LaBonte, John Langford, Eduardo Salinas
编译 | 岳扬
Phi-4-reasoning-vision-15B 是一款拥有 15B 参数的开源权重多模态推理模型,可通过 Microsoft Foundry[1]、HuggingFace[2] 和 GitHub[3] 获取。Phi-4-reasoning-vision-15B 能力全面,可广泛应用于各类视觉-语言任务,如图像描述、图像问答、文档与票据识别、作业辅导、对图像序列变化的逻辑推断等等。除上述通用能力外,它在数学与科学推理方面表现优异,同时能够精准理解并定位电脑与手机屏幕上的界面元素。尤为值得一提的是,相较于当前流行的开源权重模型,这款模型在“性能”与“成本”的平衡上突破了现有极限,具有极高的性价比。在性能上,我们与那些推理更慢、耗时更长且 token 消耗更多的模型相比毫不逊色,而在与速度相近的模型对比时,准确率更高,尤其在数学与科学推理领域[4]优势明显。
图 1:与现有模型相比,Phi-4-reasoning-vision-15B 在“性能”与“成本”的平衡上超越了现有模型,是一个极具竞争力的选择。相较于那些推理更慢、耗时更长且 token 消耗更多的模型,我们在性能上具有竞争力,而在与速度相近的模型对比时,准确率更高。这些数值是基于 4 个基准测试子集(ChartQA_TEST、MathVista_MINI、MMMU_VAL 和 ScreenSpot_v2)中记录的准确率、时间和输出 token 数计算得出的平均值。
在本文中,我们将分享驱动该模型研发的初衷、关键设计决策、实验过程与经验总结,同时提供模型性能评估结果及使用建议。我们的目标是为社区贡献关于构建小型高效多模态推理模型的实用见解,并开源一款在通用视觉 - 语言任务上可与同量级模型媲美[4]、在计算机操作场景下表现优异[4]、且在科学与数学多模态推理方面具备突出能力的开放权重模型。
01 专注于更小更快的视觉-语言模型
许多流行的视觉-语言模型(VLM)正朝着参数规模不断扩大的方向发展,尤其是在其消耗与生成的 token 数量上。这导致训练与推理阶段的成本及延迟增加,也限制了它们在下游场景中的落地应用,尤其是在资源受限或需要实时交互的环境中。
与此同时,一股转向更小规模模型[5]的新趋势正在兴起,大家试图通过更精细的模型设计与数据筛选来提升效率 —— 这正是 Phi 系列模型[6]率先探索的目标,并在 Phi-4-reasoning-vision-15B 身上得到进一步发扬。我们尤其借鉴了 Phi-4[7] 和 Phi-4-Reasoning[8] 语言模型的经验,展示了如何在无需依赖超大训练数据集、复杂架构或过多推理阶段 token 生成的前提下,训练出一个能够覆盖广泛视觉与语言任务的多模态模型。我们的模型力求轻量化,使其能够在普通硬件上运行,同时在需要时仍具备结构化推理能力。与近期许多同等规模的开源权重视觉-语言模型相比,我们的模型训练所消耗的计算资源大幅减少。 我们仅使用了 200B token 的多模态数据进行训练,并依托基于 Phi-4(400B 独立 token)训练而成的 Phi-4-reasoning(16B token),而诸如 Qwen 2.5 VL[9]、Qwen 3 VL[10]、Kimi-VL[11] 和 Gemma3[12] 等多模态模型,其训练所用的 token 均超过 1T。因此,与现有模型相比,我们提供了一个极具竞争力的选择,进一步拓展了准确性与计算成本之间的帕累托前沿。
图 2:Phi-4-Reasoning-Vision 能够协助处理多种日常任务。
02 训练多模态模型的心得与经验
训练多模态推理模型涉及诸多问题,需要在模型架构、数据集质量与构成、以及重度推理任务与侧重感知的非推理任务之间的交互方面,做出许多细致入微的设计抉择。
2.1 模型架构:早期融合与中期融合
VLM 的模型架构差异主要在于视觉与文本信息的融合方式。 中期融合(Mid-fusion)模型利用预训练的视觉编码器将图像转换为视觉 token,并将其投影到预训练大语言模型(LLM)的嵌入空间中,从而在利用已基于万亿级 token 训练过的组件的同时,实现跨模态推理。早期融合(Early-fusion)模型则在单一的 Transformer 模型中处理图像块和文本 token,虽能生成更丰富的联合表征(joint representations),但计算、内存及数据成本明显更高。我们最终采用了中期融合架构,因为它能在资源有限的情况下,为构建高性能模型提供切实可行的权衡方案。
2.2 模型架构:视觉编码器与图像处理
我们基于 SigLIP-2[13] 视觉编码器和 Phi-4-Reasoning backbone 进行模型构建。在先前的研究中,我们发现多模态语言模型有时难以解决特定任务,并非因为缺乏推理能力,而是无法从图像中提取并筛选出相关的感知信息[14]。典型的例子便是高分辨率截图 —— 这类图像信息密度高,但交互元素相对较小。
一些开源多模态语言模型已相应调整了其方法,例如,Gemma3[12] 采用了 pan-and-scan 策略,NVILA[15] 则使用了 Dynamic S2。然而,在不同数据集和超参数下,这些方法的权衡取舍难以一概而论。为此,我们对多种技术进行了消融研究。我们基于 1000 万图像 - 文本对数据集(image-text pairs)训练了一个较小的 5B 参数 Phi-4 智能体模型,该数据集主要由计算机操作(computer-use)与 GUI 定位数据构成。我们将以下方案进行了对比:Dynamic S2(该方法将图像调整为矩形分辨率(rectangular resolution)以最大程度减少失真,同时使其能够被 384×384 的正方形图块进行分割);Multi-crop(将图像分割为可能重叠的 384×384 正方形图块,并在 token 维度拼接其编码特征);Multi-crop with S2(先裁剪为 1536×1536 的正方形图块再应用 S2,以此扩大感受野(receptive field));以及采用 SigLIP-2 的 Naflex 变体实现的动态分辨率方法,这是一种原生支持动态分辨率的编码器,可调节图像切块(patch)的数量。
我们的主要发现是,动态分辨率的视觉编码器表现最佳,尤其在高分辨率数据上尤为突出。 对比动态分辨率下最大 token 数为 2048 与 3600 的这一实验设置非常有趣:后者大致对应原生 HD 720p 分辨率,在高分辨率基准测试中,尤其是 ScreenSpot-Pro 上,性能有显著提升。我们还发现,采用“multi-crop with S2”方法的表现优于标准的多切块(multi-crop)方法,尽管前者使用的视觉 token 更少(即总体切块数量更少)。动态分辨率技术平均生成的 token 数量最多;而基于 S2 的方法由于受其切块子流程的限制,实际使用的 token 数通常仅为最大 token 数的一半左右。基于这些实验,我们选择 SigLIP-2 的 Naflex 变体作为我们的视觉编码器。
表 1:不同分辨率处理方式的结果对比。每个基准测试中表现最佳的前两种配置以粗体显示。
2.3 数据:质量与构成
与其语言主干模型 Phi-4-Reasoning 一脉相承,Phi-4-reasoning-vision-15B 的训练同样将数据质量置于核心位置。我们的最终数据集主要有三类来源:经过精细筛选与优化的开源数据集、高质量的领域专属内部数据,以及通过定向采集获得的高质量数据。 其中,绝大部分数据属于第一类 —— 即源于开源、但经过深度清洗与增强的数据:无论是剔除低质量的数据集或样本记录、或者通过编程方式自动修复格式错误的数据,还是利用开源图像作为种子来合成生成更高质量的配套文本。
优化开源数据的流程始于对每个数据集进行人工抽样审查。通常只需 5 到 10 分钟,即可将样本归类为:优质数据、问题优质但答案错误、问题或图像质量偏低、或内容优质但存在格式错误。对于优质数据,我们基本保留原样;对于答案错误或描述质量不佳的样本,我们借助 GPT-4o 与 o4-mini 重新生成回复,并直接剔除错误率持续过高的数据集。低质量问题本身较难挽救,但若图像质量尚可,我们会将其作为种子,重新生成新的图像描述或视觉问答(VQA)数据;而对于图像本身存在根本性缺陷的数据集,则直接排除。此外,我们还修复了大量广泛使用的开源数据集中存在的格式与逻辑错误——其数量之多,出乎意料。
我们通过格式重构(reformatting)、内容多样化处理(diversification),以及以图像为种子生成新数据等方式,从现有数据集中进一步挖掘价值。具体而言:针对数学与科学类数据,我们在保留原始问答对的同时,补充生成更详细的图像描述;通过将指令遵循要求(nstruction-following requirements)直接嵌入特定垂直领域的问答中,让同一份数据“一材两用”;创建“打乱顺序(scrambled,)”、“描述匹配(caption-matching,)”、“有何变化?(what’s changed?)”等新型样本,以提升模型在多图像推理及 CUA 场景下的序列导航能力;并使得提示词风格多样化,促使模型在面对非完美的结构化提问时仍能保持鲁棒性。
为补充经过优化的开源数据,我们还引入了高质量的内部数据集、Phi-4 语言模型训练阶段积累的若干数学专项数据集,以及一些特定领域内部的精修数据;例如,通过解析并渲染 arXiv 文档中的公式所生成的 LaTeX-OCR 数据。
图 3:Phi-4-reasoning-vision-15B 训练数据构成与示例
2.4 数据:数学类与计算机操作类数据的比例
我们的目标之一是训练出这样一款模型,既能在通用视觉 - 语言任务上表现出色,又能在数学与科学推理及计算机操作场景中脱颖而出。如何构建具备泛化推理能力的数据集仍是一个悬而未决的问题 —— 尤其是因为数据规模与推理性能之间的关系可能导致截然不同的设计决策,例如是在大规模数据集上训练单一模型,还是训练多个专用模型并进行针对性的后训练(post-training)。
关于长尾分布分类任务鲁棒性(long-tailed classification robustness)的研究表明,对占比过高的任务或子群体进行数据平衡或剔除[16],是确保良好性能的有效方法。然而,在训练 VLM 时,这些见解并未得到充分利用或深入探索,该领域有时更偏重数据规模而非精细的数据平衡。为实现我们的目标,我们开展了一系列实验,以分析各重点关注领域之间的数据比例。
我们使用与前述实验相同的 50 亿参数智能体模型进行训练,在每次训练运行时调整数学/科学数据与计算机操作数据的比例。每个数据集均使用相同的 100 万通用图像 - 文本对子集作为 baseline。对于数学和科学数据,我们使用了其中的一个子样本,包含 15 万条记录,并可选择将每条记录复制最多三次。此外,我们引入了最多 45 万条计算机操作记录,并可选择额外加入 40 万条来自 Phi-Ground[17] 的数据。
我们发现,增加计算机操作数据并不会损害多模态数学与科学任务的性能,反之亦然。有趣的是,我们发现在保持计算机操作数据不变的情况下,将数学数据量增加至三倍,反而同时提升了数学、科学和计算机操作三个领域的基准测试表现。
表 2:调整数学数据与 CUA 数据的比例。在保持计算机操作数据不变的情况下将数学数据增加 3 倍,可同时提升数学与计算机操作基准测试的表现。
2.5 数据:帮助模型能够更好地处理“带密集文字的图像”进行逻辑推理的合成数据
近期研究表明[18],针对性的合成数据能显著提升多模态推理能力,尤其是对于图表、文档、示意图及数学公式等文本密集的视觉领域。通过编程方式生成图像、问题与答案,并以视觉结构为依据,可以实现对视觉内容与监督质量的精确控制,从而避免抓取数据集中常见的标注错误、带有歧义以及分布偏差等问题。这使得视觉感知与多步推理之间的对齐更加清晰,进而能够在重推理的基准测试中带来可衡量的性能提升。
合成的文本密集图像扩展了对长尾视觉格式的覆盖范围,这些格式在真实数据中占比不足,却对推理准确性有着不成比例的重要影响。 这类数据不仅改善了视觉定位能力,还通过减少因感知错误导致的失败,提升了下游推理性能。我们发现,通过编程方式生成的合成数据是对高质量真实数据集的有益补充——并非替代,而是一种可扩展的机制,能够在增强感知与推理能力的同时,与 Phi-4-reasoning-vision-15B 这类紧凑型多模态模型的训练目标形成良好互补。
03 将“非推理”与“推理”混合作为核心设计目标
在纯文本场景下,推理轨迹虽能提升许多任务的表现,却需要额外的计算资源,从而带来不必要的延迟。而在多模态场景下,这种权衡关系更为复杂:对于图像描述和光学字符识别(OCR)等任务,推理往往并非必需,甚至可能产生负面影响[19];相反,数学与科学问题求解则受益于多步推理。因此,何时启用推理、何时不启用,是一个需要细致斟酌的选择。
3.1 多模态推理模型的训练方法
纯文本推理模型通常通过监督微调(SFT)或强化学习(RL)构建:SFT 较简单,但需要大量昂贵的推理轨迹数据;而 RL 虽降低了数据需求,却显著增加了训练复杂度与计算成本。多模态推理模型遵循类似流程,但设计空间更为复杂。采用中期融合架构时,首要决策在于基础语言模型本身是推理模型还是非推理模型。由此衍生出几种可能的训练流程:
- 非推理 LLM → 推理多模态训练:推理与多模态能力同时训练。
- 非推理 LLM → 非推理多模态 → 推理多模态训练:先学习多模态能力,再添加推理能力。
- 推理 LLM → 推理多模态训练:使用推理基础模型,但所有多模态数据必须包含推理轨迹。
- 我们的方法:推理 LLM → 混合非推理/推理多模态训练。基于具备推理能力的基础模型,在混合数据上进行训练,学习何时推理、何时直接回应。
路径 1 与路径 2 的优势在于可以利用广泛可得的非推理大语言模型检查点(checkpoints),从零开始灵活设计多模态推理行为,但对多模态训练的要求较高。路径 1 需要同时教会模型视觉理解与推理能力,且依赖大量多模态推理数据;路径 2 则可用较少的推理数据进行训练,但存在灾难性遗忘的风险,即推理训练可能削弱先前习得的视觉能力。与直接采用具备推理能力的基座模型相比,这两条路径均存在推理能力偏弱的风险。路径 3 继承了强大的推理基础,但与路径 1 类似,要求所有训练数据均包含推理轨迹,且对所有查询均输出推理过程,即使在某些场景下并无必要。
3.2 我们的方法:混合“推理”与“非推理”的模型
Phi-4-reasoning-vision-15B 采用了前述第 4 条训练路径,在推理能力、推理效率与数据需求之间实现了平衡。该模型继承了强大的推理基础,同时采用混合策略,融合了其他路径的优点,并规避了其缺陷。对于以感知为主的领域(在这些领域中,推理只会增加延迟而无助于提升准确率),模型默认采用直接推理,避免了不必要的冗长输出,降低了推理成本;而对于数学、科学等能从结构化多步推理中获益的领域[20],模型则会调用更长的推理路径。
我们的模型采用监督微调(SFT)进行训练,其中推理样本在最终答案前包含“…”形式的思维链推理过程,覆盖数学、科学等领域。非推理样本则以“” token 标记开头,表示直接作答,涵盖图像描述、定位、OCR、简单视觉问答等以感知为主的任务。推理数据约占整体数据混合比例的 20%。由于模型基于具备推理能力的基座模型,这部分数据的作用是将已有的推理能力锚定到视觉场景中,而非从零开始教会模型如何推理。
这种方法也并非没有局限。两种模式之间的平衡直接取决于我们所做的设计选择——这些选择参考了近期文献[19]以及在训练中观察到的模型行为,但两种模式之间的边界可能并不精确,因为模型是从数据分布中隐式习得的。当用户希望覆盖默认的推理行为时,可以通过显式使用“”或“” token 进行 prompting 来实现控制。20% 推理数据与 80% 非推理数据的配比,未必适用于所有领域或部署场景。如何评估数据的最佳配比,以及模型在两种模式间恰当切换的能力,仍是一个有待探索的问题。
我们将这种混合方法视为多模态系统中平衡延迟、准确率与灵活性的一种兼具实用性与合理性的设计选择,而非最终定论。
04 应用场景
图 4: Phi-4-Reasoning-Vision 能够理解图像序列
Phi-4-reasoning-vision-15B 在众多视觉 - 语言任务上均表现出色。它通过观察照片、文档、图表或屏幕来“看见”并理解世界。在实际应用中,这涵盖了极其广泛的使用场景 —— 仅举几例:描述图像内容并回答相关问题、解读图像序列中的变化与趋势、识别物体与地标,以及转录图像中的文字。
05 亮点:科学与数学推理能力,以及对计算机操作智能体(CUA)的支持
除通用的视觉 - 语言任务外,Phi-4-reasoning-vision-15B 还专为擅长“视觉输入 + 结构化推理”的复合型任务而设计,例如:求解以视觉形式呈现的数学问题(如手写题目或基于示意图的问答)、从文档与图表中提取定量信息并进行推理、以及在教育或科研分析场景中支持多步逻辑推导。
图 5: Phi-4-reasoning-vision-15B 在数学与科学任务上表现优异
图 6: Phi-4-reasoning-vision-15B 可辅助解答手写数学题
此外,我们还训练 Phi-4-reasoning-vision-15B 具备支持智能体与图形用户界面交互的能力 —— 通过理解屏幕内容并选择相应操作。凭借出色的高分辨率感知能力与细粒度定位能力,该模型是训练智能体基座的理想选择,例如用于导航桌面、网页或移动端界面的智能体,能够精准识别并定位按钮、菜单、输入框等交互元素。由于其推理阶段的资源需求较低,它尤其适合对低延迟与轻量化模型有严格要求的交互式环境。
图 7:Phi-4-reasoning-vision-15B 能够辅助进行计算机界面导航
06 评估
Phi-4-reasoning-vision-15B 的准确率与耗时评估采用了两个互补的开源框架,以确保分析既严谨又标准化:Eureka ML Insights[21] 与 VLMEvalKit[22]。
表 3:与主流开源权重、非推理型模型的准确率对比
表 4:与主流开源权重、推理型模型的准确率对比
我们的模型在推理与非推理性能之间取得了平衡——在默认的“混合推理”行为下,平均准确率高于强制开启推理或强制关闭推理的场景。仅在少数情况下,强制指定某种模式能提升性能(推理模式下的 MathVerse 和 MMU_val,以及非推理模式下的 ScreenSpot_v2)。如前文所述,与近期流行的开源权重模型相比,我们的模型在准确率与成本(以推理计算量和输出 token 数衡量)之间提供了理想的权衡。
注:此处所有数据均为我们自行运行基准测试所得,可能低于此前其他渠道公布的数值。我们并未直接引用榜单数据,而是自行完成基准测试,以便理解相关模型的性能如何随输出 token 数量变化而扩展。我们尽最大努力进行公平评估,使用推荐的评估平台,并为所有第三方模型采用了各自官方推荐的设置与提示词。对于 Qwen 系列模型,我们既使用了其推荐的 token 数量,也运行了与我们自身最大输出 token 数(4096)对齐的评估。对于 Phi-4-reasoning-vision-15B,我们使用了自身的系统提示词与对话模板,未进行任何自定义用户提示词或参数调整,所有评估均采用 temperature=0.0、贪心解码(greedy decoding)以及最大输出 token 数为 4096 的设置。这些数据仅供对比与分析之用,并非作为榜单成绩进行发布。为最大程度保证透明与公平,我们将公开所有评估日志。更多评估方法的细节,请参阅我们的技术报告[23]。
07 Safety
与 Phi 系列其他模型一样,Phi-4-reasoning-vision-15B 在训练与评估的整个过程中始终将安全性作为核心考量。该模型使用了公开的安全数据集与内部生成的示例进行训练,这些示例旨在引导模型学会在适当时机予以拒答,以符合微软的负责任人工智能原则。更多详情请参阅我们的技术报告[23]。
08 开源发布与社区共建
Phi-4-reasoning-vision-15B 已在 Microsoft Foundry[24] 和 HuggingFace 平台[25]发布,更多示例与详细信息请访问 GitHub[26]。如需关于如何正确、安全使用该模型的进一步指导,请参阅我们的 Model card[25]。有关模型技术细节、训练与评估的更多信息,请参阅技术报告[23]。
秉持支持社区未来人工智能发展的目标,Phi-4-reasoning-vision-15B 采用宽松许可证开源发布,包含模型权重、微调代码及基准测试日志。我们希望通过提供这些具体成果,补充现有研究工作,帮助弥合人们对“如何构建与研究紧凑多模态推理模型”的认知缺口。
09 展望未来
具备选择性、任务感知推理能力的小型视觉 - 语言模型,为使多模态系统更实用、更易用提供了一条有前景的方向。我们分享本模型及其研发经验,旨在为多模态建模、计算机操作智能体、数学与科学推理等领域的持续研究提供参考。我们希望这些细节对探索类似权衡的研究者有所助益,并诚挚欢迎社区开展批判性评估、复现与拓展工作。如果您希望加入我们、共同塑造多模态模型的未来,欢迎申请我们的开放职位[27]。
10 致谢
我们感谢 Rachel Ward 在数据收集与筛选方面的大量工作。感谢 GenDatasets、PhiGround、SimCity 与 Fara-7B 团队提供的宝贵训练数据。感谢 Harkirat Behl、Mojan Javaheripi 与 Suriya Gunasekar 为我们提供 Phi-4 checkpoints 及基于 Phi 模型训练的指导。此外,我们衷心感谢 Sahaj Agarwal、Ahmed Awadallah、Qi Dai、Gustavo de Rosa、Rafah Hosn、Ece Kamar、Piero Kauffmann、Yash Lara、Chong Luo、Caio César Teodoro Mendes、Akshay Nambi、Craig Presti、Matthew Rosoff、Corby Rosset、Marco Rossi、Kashyap Patel、Adil Salim、Sidhartha Sen、Shital Shah、Pratyusha Sharma、Alexey Taymanov、Vibhav Vineet、John Weiss、Spencer Whitehead、AI Frontiers 团队及其领导层,以及微软研究院领导层,感谢他们在本项工作中提供的宝贵帮助、深刻见解与持续支持。
END
本期互动内容 🍻
❓实验显示增加数学数据反而提升了计算机操作任务的性能。你觉得这是“推理能力泛化”的证据,还是数据本身存在隐含的共通结构?
文中链接
[2]huggingface.co/microsoft/P…
[4]www.microsoft.com/en-us/resea…
[6]azure.microsoft.com/en-us/produ…
[7]www.microsoft.com/en-us/resea…
[8]www.microsoft.com/en-us/resea…
[14]www.microsoft.com/en-us/resea…
[17]www.microsoft.com/en-us/resea…
[25]huggingface.co/microsoft/P…
[27]www.microsoft.com/en-us/resea…
原文链接: