Phi-4 Reasoning Vision 15B 让多模态图文推理进入「可落地、轻量、专业」新时代

0 阅读2分钟

没有复杂设置、没有多余步骤——只有一张图和一段文本。过去,这意味着开发者要手动拼接视觉与语言模块,参数、模式、推理逻辑全靠经验调试。现在,Phi-4 Reasoning Vision 15B 代表了另一种可能:让模型在推理阶段自动理解图文特征,并生成高质量、多步骤推理结果。

微软发布的 Phi-4 Reasoning Vision 15B 模型,基于 150 亿参数,支持图文联合推理,能够处理复杂文档分析、数学推理、图像理解以及 GUI 定位等任务。

该模型采用 SigLIP-2 视觉编码器与 Phi-4-Reasoning 语言骨干网络的中间融合架构,将图像转换为视觉 token 并注入语言模型,实现图文同步推理。动态分辨率设计支持多达 3,600 个视觉 token,既能分析高分辨率图表,也能精确识别界面元素。模型提供三种思考模式:think 展示推理过程、nothink 快速输出答案、hybrid 平衡速度与精度。

Phi-4 Reasoning Vision 15B 并不是又一套「复杂多模态管线」,而是一种能够在推理阶段统一处理文本与图像信息的智能工具——让多模态推理变得可控、轻量且专业。

教程链接go.openbayes.com/O8tVV

使用云平台: OpenBayes

openbayes.com/console/sig…**

首先点击「公共教程」,找到「Phi-4-reasoning-vision-15B 多模态推理视觉模型 Demo」,单击打开。

页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本,不需要再进行手动选择。点击「继续执行」,等待分配资源。

若显示「Bad Gateway」,这表示模型正在加载中,请等待约 2-3 分钟后刷新页面即可。

使用步骤如下:

1.页面跳转后,点击左侧 README.ipynb 文件,进入后点击上方「运行」。

2.运行完成,即可点击右侧 API 地址跳转至 demo 页面。

3.输入想问的问题或图片,设定 System Prompt(系统提示词),选择 Max New Tokens(最大生成长度) 和 Temperature(随机性)。

推荐配置:

  • 简单问答:Max New Tokens 1024,Temperature 0.0,简短回答,确定性输出
  • 详细推理:Max New Tokens 4096,Temperature 0.0,复杂问题,展示推理过程
  • 创意生成:Max New Tokens 2048,Temperature 0.7,需要多样性的创意任务
  • 图像描述:Max New Tokens 2048,Temperature 0.0,详细描述图像内容
  • 图像推理:Max New Tokens 4096,Temperature 0.0,基于图像的复杂推理

image.png

4.输入完成后点击运行,稍等片刻右侧结果框生成回答。