小米在MiMo-V2系列重磅三连更仅36天之后,再度祭出MiMo-V2.5系列模型,小米这次一口气官宣了旗舰语言模型MiMo-V2.5-Pro、全模态Agent模型MiMo-V2.5、以及V2.5-TTS、V2.5-ASR等多款新模型,并宣布MiMo-V2.5-Pro与MiMo-V2.5即将全球开源。
官方将MiMo-V2.5定位为"越级全模态Agent,百万上下文"——它是面向Agent场景打造的原生全模态大模型,支持百万级上下文窗口,能同时处理图像、音频与视频输入,并且相比Pro版推理速度更快,更适合时延敏感任务。我们对其API版本mimo-v2.5进行了全面评测,测试其在准确率、响应时间、token消耗和调用花费等关键指标上的表现。
需要说明的是,本次评测侧重中文文本场景下的综合能力考察,视频理解、音频感知、跨模态推理等维度可结合文末的官方评测数据形成更完整的判断。
mimo-v2.5版本表现:
- 测试题数:约1.5万
- 总分(准确率):65.8%
- 平均耗时(每次调用):46s
- 平均token(每次调用消耗的token):3024
- 平均花费(每千次调用的人民币花费):36.8
1、新旧对决
对比上一代全模态模型(MiMo-V2-Omni),mimo-v2.5在响应速度和能力结构上都出现了明显调整,数据如下:
*数据来源:非线智能ReLE评测github.com/jeinlee1991…
*输出价格单位: 元/百万token
- 整体性能基本持平:新版本准确率从66.2%微降至65.8%,下降0.4个百分点,在总榜中的排名从第32位微调至第34位。在中文纯文本场景下,综合能力与上一代全模态模型旗鼓相当。
- 细分领域呈现"此消彼长"的结构性调整:
- coding(+8.8%):从53.1%提升至61.9%,是本次升级幅度最大的维度,反映出MiMo-V2.5在编程能力上的有意强化。这一点与官方在博客中强调"在日常编程任务中超越Gemini 3.1 Pro"的定位相互印证。
- 金融(+4.8%):从71.7%提升至76.5%,在垂直行业知识上有稳步改善。
- 医疗与心理健康(+2.0%):从77.7%提升至79.7%,保持了较高水准。
- 语言与指令遵从(+0.6%):基本持平,略有微调。
- 部分维度出现回调:
- 教育(-8.3%):从56.2%回落至47.9%,是本次变动幅度最大的下降维度,在当前评测框架下该维度的知识覆盖存在一定权衡。
- 推理与数学计算(-5.5%):从73.3%回落至67.8%。
- agent与工具调用(-4.1%):从66.0%回落至61.9%,这一点与官方强调的"Agent能力全面超越MiMo-V2-Pro"的定位存在一定张力。
- 法律与行政公务(-2.6%):从83.3%小幅回调至80.7%。
- 响应时间大幅缩短:平均耗时从268s缩短至46s,降幅约83%,这是本次更新最显著的变化之一。结合官方"MiMo-V2.5相比Pro版推理速度更快,更适应对时延敏感的任务"的定位,这一提速与其产品路线清晰吻合——MiMo-V2.5主打"快速响应的全模态Agent",承担日常简单任务;而长链复杂任务则交由MiMo-V2.5-Pro处理。
- Token与成本呈现微增态势:平均token消耗从2883增至3024(+4.9%),输出单价保持在14.0元/百万token不变,每千次调用花费从34.8元微增至36.8元(+2元)。值得一提的是,官方博客中提到"API成本降低约50%"的结论,是基于Token Plan订阅套餐的调整,而非API按量计费层面。
2、横向对比
在当前主流大模型竞争格局中,mimo-v2.5作为面向日常Agent任务的轻量全模态模型表现如何?我们从三个维度进行横向对比分析:
*数据来源:非线智能ReLE评测github.com/jeinlee1991…
同成本档位对比
- 30-40元/千次花费区间对比:该档位内,Qwen3.6-35B-A3B(68.1%,40.5元)以2.3个百分点的优势领先于mimo-v2.5(65.8%,36.8元),MiniMax-M2.7(65.1%,32.4元)则基本持平。考虑到mimo-v2.5平均仅用46s即可完成调用,而Qwen3.6-35B-A3B需要81s、MiniMax-M2.7需要87s,在时延敏感的Agent场景下,mimo-v2.5的速度优势具备一定的差异化价值。
- 向上看:在40-50元/千次的档位,qwen3.6-plus(70.7%,41.6元)以相近花费提供了4.9个百分点更高的准确率,MiMo-V2-Pro(65.8%,50.2元)则在同准确率下花费更高且耗时达265s。对于追求纯文本综合能力的场景,qwen3.6-plus具备更高的成本效率比。
- 向下看:小米自家的MiMo-V2-Flash-think-0204(64.5%,7.8元)以极低成本提供了接近的准确率,但平均耗时高达645s,这与mimo-v2.5的"快速响应"定位形成互补——前者适合成本敏感的离线任务,后者适合时延敏感的在线Agent场景。
新旧模型对比
- 自身代际梳理:小米MiMo系列已形成明确的产品矩阵——旗舰层的mimo-v2.5-pro(71.4%,64.3元,56s)对标长链复杂任务;mimo-v2.5(65.8%,36.8元,46s)承担日常全模态Agent任务;上一代的MiMo-V2-Pro(65.8%,50.2元,265s)与MiMo-V2-Omni(66.2%,34.8元,268s)则完成产品线过渡;此外还有MiMo-V2-Flash-think-0204(64.5%,7.8元)作为低成本补充。新一代在速度与成本控制上的进步较为明显。
- 与其他厂商新模型的对比: 在榜单Top 10格局中,领先者基本由qwen3.6-max-preview(75.4%)、gemini-3.1-pro-preview(75.2%)、qwen3.5-plus(73.3%)、kimi-k2.6(72.9%)、Doubao-Seed-2.0-pro(72.8%)等新一代旗舰占据。mimo-v2.5作为轻量定位的Agent模型,与这些旗舰模型的准确率对比直接对照意义有限——它的核心价值在于多模态感知与快速响应,而非在纯文本准确率上与旗舰正面竞争。
- 小米旗舰的位置:同门的mimo-v2.5-pro以71.4%的准确率位列第7,是小米系目前在纯中文文本评测中排名最高的模型,说明小米的基础能力在本次系列更新中整体向前推进。
开源VS闭源对比
- 当前阵营定位:mimo-v2.5在榜单中标注为"商用"(API版本),但官方已明确表示MiMo-V2.5与MiMo-V2.5-Pro即将全球开源。一旦开源权重落地,它将成为少数具备原生全模态能力的开源Agent模型之一。
- 开源阵营对标:当前开源阵营中,qwen3.5-plus(73.3%,22.9元)、kimi-k2.6(72.9%,100.4元)、Qwen3.5-122B-A10B(70.9%,32.3元)、Kimi-K2.5-Thinking(70.8%,77.1元)等模型在纯文本准确率上具备较大优势。
3、官方评测
根据小米官方发布内容,将MiMo-V2.5定位为"agentic能力与多模态能力的一次跃迁"。该模型基于小米的LLM底座,加入了专属的视觉与音频编码器,并通过优化的后训练管线将感知、推理与工具调用进行联合对齐。官方强调,MiMo-V2.5从训练伊始就被设计为一个"能看、能听、能行动"的单一模型,并原生支持百万级token上下文。
Agent能力
在小米内部的MiMo Coding Bench上,MiMo-V2.5在日常编程任务上与前沿模型的差距正在收窄,并以一半的成本匹配MiMo-V2.5-Pro的水平。
在日常Agent任务基准Claw-Eval上,MiMo-V2.5在general子集上取得62.3分,官方称其处于"性能与效率的帕累托前沿"。
多模态感知
MiMo-V2.5在精准视觉推理、复杂图表分析和深度多模态理解上均有提升,原生支持最高100万token的上下文。
- 多模态Agent任务:MiMo-V2.5在Claw-Eval Multimodal上取得23.8分,与Claude Sonnet 4.6持平,领先MiMo-V2-Omni达8个百分点,与Claude Opus 4.6仅差1分。
- 视频理解:MiMo-V2.5在Video-MME上取得87.7分,与Gemini 3 Pro(88.4)基本持平,并明显领先Gemini 3 Flash。官方表示,在场景追踪、时序推理、分钟级视频的视觉定位等长周期视频理解任务上,MiMo-V2.5已进入前沿水平。
- 图像理解:MiMo-V2.5在CharXiv RQ上取得81.0分、在MMMU-Pro上取得77.9分,接近Gemini 3 Pro水平。
目前所有大模型评测文章在公众号:大模型评测及优化NoneLinear