小米 MiMo-V2-Pro 实测小米发布万亿参数旗舰MiMo-V2-Pro，激活42B参数，专注Agent与编程。中文

小米MiMo团队在MiMo-V2-Flash之后，正式发布了旗舰级基座模型MiMo-V2-Pro。不同于Flash系列追求极致效率和性价比的路线，MiMo-V2-Pro的定位非常明确——做Agent系统的"大脑"。官方宣称，MiMo-V2-Pro总参数量突破万亿（1T），每次前向传播激活42B参数，约为MiMo-V2-Flash的3倍，支持100万token上下文窗口，在编程、Agent以及复杂工作流编排等场景中具备全球前列的能力。我们对其API版本MiMo-V2-Pro进行了全面评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现。

需要特别说明的是，本次评测主要聚焦于中文场景下的综合能力考察。MiMo-V2-Pro的核心"杀手锏"在于Agent能力和编程能力。这些能力在当前以中文文本和逻辑为核心的评测框架下，并未得到充分体现。换言之，以下的中文评测成绩，更多反映的是这款Agent旗舰在纯文本理解和推理上的"底色"，而非其能力上限。

MiMo-V2-Pro版本表现：

测试题数：约1.5万
总分（准确率）：67.6%
平均耗时（每次调用）：265s
平均token（每次调用消耗的token）：2720
平均花费（每千次调用的人民币花费）：50.2

1、新旧对决：从"轻量极速"到"万亿旗舰"的路径分化

MiMo-V2-Pro与MiMo-V2-Flash并非简单的版本迭代关系，而是小米MiMo产品矩阵中定位截然不同的两条产品线。Flash系列追求的是极致效率——309B总参数、15B激活参数、混合滑窗注意力架构、150 token/s的推理速度；而Pro系列走的是旗舰路线——万亿总参数、42B激活参数、100万上下文窗口、深度Agent能力。因此，以下对比更适合理解为"小米两条产品线在中文综合能力上的差异化表现"，而非传统意义上的升级对比。

对比MiMo-V2-Flash-think-0204，数据如下：

*数据来源：非线智能ReLE评测github.com/jeinlee1991…

*输出价格单位：元/百万token

总分基本持平但排名有所互换：MiMo-V2-Pro总分为67.6%，MiMo-V2-Flash-think-0204为68.2%，Pro版本略低0.6个百分点。在中文综合能力这一维度上，万亿参数的Pro版本并未拉开与轻量Flash版本的差距。这一现象需要结合两者的产品定位来理解——Pro版本的核心优化方向在Agent和编程场景，而非中文文本理解。
金融领域明显提升：MiMo-V2-Pro在"金融"维度从76.2%提升至80.1%（+3.9%），是所有维度中提升幅度最大的，展现了旗舰模型在专业知识密度上的优势。
医疗与心理健康小幅改善："医疗与心理健康"从79.2%提升至80.5%（+1.3%），保持了稳健的表现。
Agent与工具调用微幅提升："agent与工具调用"从62.3%小幅提升至63.3%（+1.0%）。值得注意的是，这一维度的提升幅度并不大——但这并不意味着Pro的Agent能力没有进步。当前评测框架侧重中文文本场景下的工具调用。
部分领域出现回调：值得关注的是，"法律与行政公务"从80.7%降至70.7%（-10.0%），出现较为明显的回调。"语言与指令遵从"从66.5%降至64.5%（-2.0%），"教育"从49.7%微降至48.9%（-0.8%），"推理与数学计算"从71.7%微调至71.9%（+0.2%），基本持平。这种"部分维度下降"的现象，可能反映了模型在后训练阶段将更多资源倾斜至Agent和编程能力的优化上，在中文文本领域存在一定的能力权衡。
响应速度大幅提升：MiMo-V2-Pro的平均耗时为265s，相比MiMo-V2-Flash-think-0204的645s缩短了约59%。在万亿参数的体量下实现这一响应速度，得益于其继承自Flash系列的Hybrid Attention机制以及轻量级MTP（Multi-Token Prediction）解码加速。
Token消耗减少但成本上升：平均token消耗从3896降至2720（-30.2%），说明Pro版本在输出上更加精炼。然而，输出单价从2.1元/M token大幅上调至21.0元/M token（10倍），导致每千次调用的花费从7.8元增至50.2元，成本上涨约543%。

2、横向对比：Agent旗舰的中文竞争力

在当前主流大模型竞争格局中，MiMo-V2-Pro作为小米首款万亿参数旗舰模型表现如何？我们从三个维度进行横向对比分析：

*数据来源：非线智能ReLE评测github.com/jeinlee1991…

同成本档位对比

在花费40至60元/千次的成本区间内，MiMo-V2-Pro（67.6%，50.2元）面临较为激烈的竞争。同处该档位的GLM-4.7（71.5%，52.5元）以相近的花费实现了更高的准确率，领先3.9个百分点。gemini-3-flash-preview（71.5%，53.5元）同样以接近的成本达到了71.5%的准确率。
向上看，qwen3-max-think-2026-01-23（72.8%，43.5元）以更低的花费实现了更高的准确率。向下看，MiMo-V2-Omni（68.6%，34.8元）作为小米自家的多模态版本，以更低的成本实现了略高的准确率。

新旧模型对比

小米MiMo产品线矩阵已具雏形：从榜单来看，小米系模型呈现出清晰的产品梯队——MiMo-V2-Omni（68.6%，第30位）、MiMo-V2-Flash-think-0204（68.2%，第32位）、MiMo-V2-Pro（67.6%，第39位），三者在中文综合能力上实力接近，但各自定位不同：Omni主打多模态、Flash主打效率、Pro主打Agent旗舰。
与榜单头部的差距：当前榜首的Doubao-Seed-2.0-pro（76.5%）、gemini-3.1-pro-preview（74.8%）、qwen3.5-plus（74.6%）等模型在中文综合能力上具备较大优势，MiMo-V2-Pro与第一梯队存在约7至9个百分点的差距。
对比其他厂商近期新模型：MiMo-V2-Pro（67.6%）与gpt-5.3-chat（70.6%）、ERNIE-5.0（70.9%）、DeepSeek-V3.2-Think（70.9%）等近期发布的新模型相比，在中文综合能力上存在一定差距。

开源VS闭源对比

在闭源阵营中，其67.6%的中文综合成绩并不占优，与Doubao-Seed-2.0-pro（76.5%，22.5元）、gemini-3.1-pro-preview（74.8%，250.5元）等闭源旗舰相比存在明显差距。
值得关注的是，开源阵营中不乏在中文综合能力上超越MiMo-V2-Pro的选手：qwen3.5-plus（74.6%，22.9元）、Qwen3.5-27B（72.4%，25元）、GLM-4.7（71.5%，52.5元）、Kimi-K2.5-Thinking（71.3%，77.1元）等开源模型均以相近甚至更低的成本实现了更高的准确率。

3、官方评测

MiMo-V2-Pro官方定位为"Agent能力全球前列的旗舰基座模型"，以下为官方公布的核心评测数据（mimo.xiaomi.com/mimo-v2-pro…

基座规模与综合智力

MiMo-V2-Pro总参数量突破万亿（1T），每次前向传播激活42B参数，约为MiMo-V2-Flash的3倍。模型继承了前代的Hybrid Attention机制，混合比例从5:1提升至7:1，在更大的参数规模下保持了较高的推理效率。支持100万token上下文窗口。

在Artificial Analysis Intelligence Index（全球模型综合智力排名）中，MiMo-V2-Pro排名全球第八，中国大模型中排名第二。

Agent能力评测

MiMo-V2-Pro在主流Agent基准上的表现如下：

PinchBench：81.0分，全球第三。
ClawEval：61.5分，全球第三，逼近Claude Opus 4.6（66.3）和Claude Sonnet 4.6（66.3），领先Gemini 3 Pro（51.9）和GPT-5.2（50.0）。

编程能力

官方表示，MiMo-V2-Pro的编程能力逼近Claude Sonnet 4.6，在小米内部工程师的深度评测中，使用体验接近Claude Opus 4.6。在此前以"Hunter Alpha"代号匿名上线OpenRouter期间，调用量连续多天登顶日榜，总使用量突破1T token，且调用量排名前列的应用均为编程类工具。

目前所有大模型评测文章在公众号：大模型评测及优化NoneLinear