小米 MiMo-V2.5 实测小米36天再发MiMo-V2.5系列，轻量版主打多模态快速响应，速度提升86%至46秒，但

小米在MiMo-V2系列重磅三连更仅36天之后，再度祭出MiMo-V2.5系列模型，小米这次一口气官宣了旗舰语言模型MiMo-V2.5-Pro、全模态Agent模型MiMo-V2.5、以及V2.5-TTS、V2.5-ASR等多款新模型，并宣布MiMo-V2.5-Pro与MiMo-V2.5即将全球开源。

官方将MiMo-V2.5定位为"越级全模态Agent，百万上下文"——它是面向Agent场景打造的原生全模态大模型，支持百万级上下文窗口，能同时处理图像、音频与视频输入，并且相比Pro版推理速度更快，更适合时延敏感任务。我们对其API版本mimo-v2.5进行了全面评测，测试其在准确率、响应时间、token消耗和调用花费等关键指标上的表现。

需要说明的是，本次评测侧重中文文本场景下的综合能力考察，视频理解、音频感知、跨模态推理等维度可结合文末的官方评测数据形成更完整的判断。

mimo-v2.5版本表现：

测试题数：约1.5万
总分（准确率）：65.8%
平均耗时（每次调用）：46s
平均token（每次调用消耗的token）：3024
平均花费（每千次调用的人民币花费）：36.8

1、新旧对决

对比上一代全模态模型（MiMo-V2-Omni），mimo-v2.5在响应速度和能力结构上都出现了明显调整，数据如下：

*数据来源：非线智能ReLE评测github.com/jeinlee1991…

*输出价格单位：元/百万token

整体性能基本持平：新版本准确率从66.2%微降至65.8%，下降0.4个百分点，在总榜中的排名从第32位微调至第34位。在中文纯文本场景下，综合能力与上一代全模态模型旗鼓相当。
细分领域呈现"此消彼长"的结构性调整：
coding（+8.8%）：从53.1%提升至61.9%，是本次升级幅度最大的维度，反映出MiMo-V2.5在编程能力上的有意强化。这一点与官方在博客中强调"在日常编程任务中超越Gemini 3.1 Pro"的定位相互印证。
金融（+4.8%）：从71.7%提升至76.5%，在垂直行业知识上有稳步改善。
医疗与心理健康（+2.0%）：从77.7%提升至79.7%，保持了较高水准。
语言与指令遵从（+0.6%）：基本持平，略有微调。
部分维度出现回调：
教育（-8.3%）：从56.2%回落至47.9%，是本次变动幅度最大的下降维度，在当前评测框架下该维度的知识覆盖存在一定权衡。
推理与数学计算（-5.5%）：从73.3%回落至67.8%。
agent与工具调用（-4.1%）：从66.0%回落至61.9%，这一点与官方强调的"Agent能力全面超越MiMo-V2-Pro"的定位存在一定张力。
法律与行政公务（-2.6%）：从83.3%小幅回调至80.7%。
响应时间大幅缩短：平均耗时从268s缩短至46s，降幅约83%，这是本次更新最显著的变化之一。结合官方"MiMo-V2.5相比Pro版推理速度更快，更适应对时延敏感的任务"的定位，这一提速与其产品路线清晰吻合——MiMo-V2.5主打"快速响应的全模态Agent"，承担日常简单任务；而长链复杂任务则交由MiMo-V2.5-Pro处理。
Token与成本呈现微增态势：平均token消耗从2883增至3024（+4.9%），输出单价保持在14.0元/百万token不变，每千次调用花费从34.8元微增至36.8元（+2元）。值得一提的是，官方博客中提到"API成本降低约50%"的结论，是基于Token Plan订阅套餐的调整，而非API按量计费层面。

2、横向对比

在当前主流大模型竞争格局中，mimo-v2.5作为面向日常Agent任务的轻量全模态模型表现如何？我们从三个维度进行横向对比分析：

*数据来源：非线智能ReLE评测github.com/jeinlee1991…

同成本档位对比

30-40元/千次花费区间对比：该档位内，Qwen3.6-35B-A3B（68.1%，40.5元）以2.3个百分点的优势领先于mimo-v2.5（65.8%，36.8元），MiniMax-M2.7（65.1%，32.4元）则基本持平。考虑到mimo-v2.5平均仅用46s即可完成调用，而Qwen3.6-35B-A3B需要81s、MiniMax-M2.7需要87s，在时延敏感的Agent场景下，mimo-v2.5的速度优势具备一定的差异化价值。
向上看：在40-50元/千次的档位，qwen3.6-plus（70.7%，41.6元）以相近花费提供了4.9个百分点更高的准确率，MiMo-V2-Pro（65.8%，50.2元）则在同准确率下花费更高且耗时达265s。对于追求纯文本综合能力的场景，qwen3.6-plus具备更高的成本效率比。
向下看：小米自家的MiMo-V2-Flash-think-0204（64.5%，7.8元）以极低成本提供了接近的准确率，但平均耗时高达645s，这与mimo-v2.5的"快速响应"定位形成互补——前者适合成本敏感的离线任务，后者适合时延敏感的在线Agent场景。

新旧模型对比

自身代际梳理：小米MiMo系列已形成明确的产品矩阵——旗舰层的mimo-v2.5-pro（71.4%，64.3元，56s）对标长链复杂任务；mimo-v2.5（65.8%，36.8元，46s）承担日常全模态Agent任务；上一代的MiMo-V2-Pro（65.8%，50.2元，265s）与MiMo-V2-Omni（66.2%，34.8元，268s）则完成产品线过渡；此外还有MiMo-V2-Flash-think-0204（64.5%，7.8元）作为低成本补充。新一代在速度与成本控制上的进步较为明显。
与其他厂商新模型的对比： 在榜单Top 10格局中，领先者基本由qwen3.6-max-preview（75.4%）、gemini-3.1-pro-preview（75.2%）、qwen3.5-plus（73.3%）、kimi-k2.6（72.9%）、Doubao-Seed-2.0-pro（72.8%）等新一代旗舰占据。mimo-v2.5作为轻量定位的Agent模型，与这些旗舰模型的准确率对比直接对照意义有限——它的核心价值在于多模态感知与快速响应，而非在纯文本准确率上与旗舰正面竞争。
小米旗舰的位置：同门的mimo-v2.5-pro以71.4%的准确率位列第7，是小米系目前在纯中文文本评测中排名最高的模型，说明小米的基础能力在本次系列更新中整体向前推进。

开源VS闭源对比

当前阵营定位：mimo-v2.5在榜单中标注为"商用"（API版本），但官方已明确表示MiMo-V2.5与MiMo-V2.5-Pro即将全球开源。一旦开源权重落地，它将成为少数具备原生全模态能力的开源Agent模型之一。
开源阵营对标：当前开源阵营中，qwen3.5-plus（73.3%，22.9元）、kimi-k2.6（72.9%，100.4元）、Qwen3.5-122B-A10B（70.9%，32.3元）、Kimi-K2.5-Thinking（70.8%，77.1元）等模型在纯文本准确率上具备较大优势。

3、官方评测

根据小米官方发布内容，将MiMo-V2.5定位为"agentic能力与多模态能力的一次跃迁"。该模型基于小米的LLM底座，加入了专属的视觉与音频编码器，并通过优化的后训练管线将感知、推理与工具调用进行联合对齐。官方强调，MiMo-V2.5从训练伊始就被设计为一个"能看、能听、能行动"的单一模型，并原生支持百万级token上下文。

Agent能力

在小米内部的MiMo Coding Bench上，MiMo-V2.5在日常编程任务上与前沿模型的差距正在收窄，并以一半的成本匹配MiMo-V2.5-Pro的水平。

在日常Agent任务基准Claw-Eval上，MiMo-V2.5在general子集上取得62.3分，官方称其处于"性能与效率的帕累托前沿"。

多模态感知

MiMo-V2.5在精准视觉推理、复杂图表分析和深度多模态理解上均有提升，原生支持最高100万token的上下文。

多模态Agent任务：MiMo-V2.5在Claw-Eval Multimodal上取得23.8分，与Claude Sonnet 4.6持平，领先MiMo-V2-Omni达8个百分点，与Claude Opus 4.6仅差1分。
视频理解：MiMo-V2.5在Video-MME上取得87.7分，与Gemini 3 Pro（88.4）基本持平，并明显领先Gemini 3 Flash。官方表示，在场景追踪、时序推理、分钟级视频的视觉定位等长周期视频理解任务上，MiMo-V2.5已进入前沿水平。
图像理解：MiMo-V2.5在CharXiv RQ上取得81.0分、在MMMU-Pro上取得77.9分，接近Gemini 3 Pro水平。

目前所有大模型评测文章在公众号：大模型评测及优化NoneLinear