小米 MiMo-V2-Pro 实测

0 阅读7分钟

小米MiMo团队在MiMo-V2-Flash之后,正式发布了旗舰级基座模型MiMo-V2-Pro。不同于Flash系列追求极致效率和性价比的路线,MiMo-V2-Pro的定位非常明确——做Agent系统的"大脑"。官方宣称,MiMo-V2-Pro总参数量突破万亿(1T),每次前向传播激活42B参数,约为MiMo-V2-Flash的3倍,支持100万token上下文窗口,在编程、Agent以及复杂工作流编排等场景中具备全球前列的能力。我们对其API版本MiMo-V2-Pro进行了全面评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现。

需要特别说明的是,本次评测主要聚焦于中文场景下的综合能力考察。MiMo-V2-Pro的核心"杀手锏"在于Agent能力和编程能力。这些能力在当前以中文文本和逻辑为核心的评测框架下,并未得到充分体现。换言之,以下的中文评测成绩,更多反映的是这款Agent旗舰在纯文本理解和推理上的"底色",而非其能力上限。

MiMo-V2-Pro版本表现:

  • 测试题数:约1.5万
  • 总分(准确率):67.6%
  • 平均耗时(每次调用):265s
  • 平均token(每次调用消耗的token):2720
  • 平均花费(每千次调用的人民币花费):50.2

1、新旧对决:从"轻量极速"到"万亿旗舰"的路径分化

MiMo-V2-Pro与MiMo-V2-Flash并非简单的版本迭代关系,而是小米MiMo产品矩阵中定位截然不同的两条产品线。Flash系列追求的是极致效率——309B总参数、15B激活参数、混合滑窗注意力架构、150 token/s的推理速度;而Pro系列走的是旗舰路线——万亿总参数、42B激活参数、100万上下文窗口、深度Agent能力。因此,以下对比更适合理解为"小米两条产品线在中文综合能力上的差异化表现",而非传统意义上的升级对比。

对比MiMo-V2-Flash-think-0204,数据如下:

*数据来源:非线智能ReLE评测github.com/jeinlee1991…

*输出价格单位: 元/百万token

  • 总分基本持平但排名有所互换:MiMo-V2-Pro总分为67.6%,MiMo-V2-Flash-think-0204为68.2%,Pro版本略低0.6个百分点。在中文综合能力这一维度上,万亿参数的Pro版本并未拉开与轻量Flash版本的差距。这一现象需要结合两者的产品定位来理解——Pro版本的核心优化方向在Agent和编程场景,而非中文文本理解。

  • 金融领域明显提升:MiMo-V2-Pro在"金融"维度从76.2%提升至80.1%(+3.9%),是所有维度中提升幅度最大的,展现了旗舰模型在专业知识密度上的优势。

  • 医疗与心理健康小幅改善:"医疗与心理健康"从79.2%提升至80.5%(+1.3%),保持了稳健的表现。

  • Agent与工具调用微幅提升:"agent与工具调用"从62.3%小幅提升至63.3%(+1.0%)。值得注意的是,这一维度的提升幅度并不大——但这并不意味着Pro的Agent能力没有进步。当前评测框架侧重中文文本场景下的工具调用。

  • 部分领域出现回调:值得关注的是,"法律与行政公务"从80.7%降至70.7%(-10.0%),出现较为明显的回调。"语言与指令遵从"从66.5%降至64.5%(-2.0%),"教育"从49.7%微降至48.9%(-0.8%),"推理与数学计算"从71.7%微调至71.9%(+0.2%),基本持平。这种"部分维度下降"的现象,可能反映了模型在后训练阶段将更多资源倾斜至Agent和编程能力的优化上,在中文文本领域存在一定的能力权衡。

  • 响应速度大幅提升:MiMo-V2-Pro的平均耗时为265s,相比MiMo-V2-Flash-think-0204的645s缩短了约59%。在万亿参数的体量下实现这一响应速度,得益于其继承自Flash系列的Hybrid Attention机制以及轻量级MTP(Multi-Token Prediction)解码加速。

  • Token消耗减少但成本上升:平均token消耗从3896降至2720(-30.2%),说明Pro版本在输出上更加精炼。然而,输出单价从2.1元/M token大幅上调至21.0元/M token(10倍),导致每千次调用的花费从7.8元增至50.2元,成本上涨约543%。

2、横向对比:Agent旗舰的中文竞争力

在当前主流大模型竞争格局中,MiMo-V2-Pro作为小米首款万亿参数旗舰模型表现如何?我们从三个维度进行横向对比分析:

*数据来源:非线智能ReLE评测github.com/jeinlee1991…

同成本档位对比

  • 在花费40至60元/千次的成本区间内,MiMo-V2-Pro(67.6%,50.2元)面临较为激烈的竞争。同处该档位的GLM-4.7(71.5%,52.5元)以相近的花费实现了更高的准确率,领先3.9个百分点。gemini-3-flash-preview(71.5%,53.5元)同样以接近的成本达到了71.5%的准确率。

  • 向上看,qwen3-max-think-2026-01-23(72.8%,43.5元)以更低的花费实现了更高的准确率。向下看,MiMo-V2-Omni(68.6%,34.8元)作为小米自家的多模态版本,以更低的成本实现了略高的准确率。

新旧模型对比

  • 小米MiMo产品线矩阵已具雏形:从榜单来看,小米系模型呈现出清晰的产品梯队——MiMo-V2-Omni(68.6%,第30位)、MiMo-V2-Flash-think-0204(68.2%,第32位)、MiMo-V2-Pro(67.6%,第39位),三者在中文综合能力上实力接近,但各自定位不同:Omni主打多模态、Flash主打效率、Pro主打Agent旗舰。

  • 与榜单头部的差距:当前榜首的Doubao-Seed-2.0-pro(76.5%)、gemini-3.1-pro-preview(74.8%)、qwen3.5-plus(74.6%)等模型在中文综合能力上具备较大优势,MiMo-V2-Pro与第一梯队存在约7至9个百分点的差距。

  • 对比其他厂商近期新模型:MiMo-V2-Pro(67.6%)与gpt-5.3-chat(70.6%)、ERNIE-5.0(70.9%)、DeepSeek-V3.2-Think(70.9%)等近期发布的新模型相比,在中文综合能力上存在一定差距。

开源VS闭源对比

  • 在闭源阵营中,其67.6%的中文综合成绩并不占优,与Doubao-Seed-2.0-pro(76.5%,22.5元)、gemini-3.1-pro-preview(74.8%,250.5元)等闭源旗舰相比存在明显差距。

  • 值得关注的是,开源阵营中不乏在中文综合能力上超越MiMo-V2-Pro的选手:qwen3.5-plus(74.6%,22.9元)、Qwen3.5-27B(72.4%,25元)、GLM-4.7(71.5%,52.5元)、Kimi-K2.5-Thinking(71.3%,77.1元)等开源模型均以相近甚至更低的成本实现了更高的准确率。

3、官方评测

MiMo-V2-Pro官方定位为"Agent能力全球前列的旗舰基座模型",以下为官方公布的核心评测数据(mimo.xiaomi.com/mimo-v2-pro…

基座规模与综合智力

MiMo-V2-Pro总参数量突破万亿(1T),每次前向传播激活42B参数,约为MiMo-V2-Flash的3倍。模型继承了前代的Hybrid Attention机制,混合比例从5:1提升至7:1,在更大的参数规模下保持了较高的推理效率。支持100万token上下文窗口。

在Artificial Analysis Intelligence Index(全球模型综合智力排名)中,MiMo-V2-Pro排名全球第八,中国大模型中排名第二。

Agent能力评测

MiMo-V2-Pro在主流Agent基准上的表现如下:

  • PinchBench:81.0分,全球第三。

  • ClawEval:61.5分,全球第三,逼近Claude Opus 4.6(66.3)和Claude Sonnet 4.6(66.3),领先Gemini 3 Pro(51.9)和GPT-5.2(50.0)。

编程能力

官方表示,MiMo-V2-Pro的编程能力逼近Claude Sonnet 4.6,在小米内部工程师的深度评测中,使用体验接近Claude Opus 4.6。在此前以"Hunter Alpha"代号匿名上线OpenRouter期间,调用量连续多天登顶日榜,总使用量突破1T token,且调用量排名前列的应用均为编程类工具。

目前所有大模型评测文章在公众号:大模型评测及优化NoneLinear