小米于去年12月发布的MiMo-V2-Flash模型,近期对该模型进行了迭代更新。本次评测聚焦于更新后的思考模式版本MiMo-V2-Flash-think-0204。我们对新旧两个思考模式版本进行了全面对比,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。
MiMo-V2-Flash-think-0204版本表现:
- 测试题数:约1.5万
- 总分(准确率):68.2%
- 平均耗时(每次调用):645s
- 平均token(每次调用消耗的token):3896
- 平均花费(每千次调用的人民币花费):7.8
1、新旧版本对比
首先对比上个版本(MiMo-V2-Flash-think),数据如下:
*数据来源:非线智能ReLE评测github.com/jeinlee1991…
*输出价格单位: 元/百万token
- 整体性能大幅提升:新版本准确率从62.0%跃升至68.2%,提升了6.2个百分点,排名从第68位大幅跃升到第21位,实现了47位的排名跨越。
- 专业能力全面增强:从细分领域来看,新版本在多个维度都实现了显著提升。“医疗与心理健康”从77.2%提升至79.2%(+2.0%);“法律与行政公务”从74.7%大幅提升至80.7%(+6.0%);“语言与指令遵从”从56.0%提升至66.5%(+10.5%);“Agent与工具调用”从48.0%大幅提升至62.3%(+14.3%),增幅最为显著。
- 部分领域出现回落:值得注意的是,“金融”领域从77.7%下降至76.2%(-1.5%),“推理与数学计算”从74.2%下降至71.7%(-2.5%),表明在整体性能提升过程中存在一定的能力权衡。
- 响应时间大幅增加:新版本的平均耗时从81s激增至645s,增幅达696%,这是本次升级中最显著的变化。对于实时性要求较高的应用场景,这一变化需要特别关注。
- 商业化转型:旧版本作为开源模型免费使用,新版本转为商用模式,输出价格为2.1元/M token,每千次调用费用为7.8元。这一变化反映了小米在模型商业化方面的战略调整。
2、对比其他模型
在当前主流大模型竞争格局中,MiMo-V2-Flash-think-0204表现如何?我们从三个维度进行横向对比分析(本评测侧重中文场景,模型在其他语言和专业领域的表现可能有所不同):
*数据来源:非线智能ReLE评测github.com/jeinlee1991…
同成本档位对比
- 成本效率比表现尚可:在7-10元/千次调用的成本区间内,MiMo-V2-Flash-think-0204以68.2%的准确率和7.8元的成本,与DeepSeek-V3.2-Think(70.9%,7.5元)、hunyuan-2.0-thinking-20251109(71.9%,9.5元)形成直接竞争,但准确率存在2-3个百分点的差距。
- 成本控制合理:从总分情况来看,相比高成本模型如gemini-3-pro-preview(72.5%,247.3元)和claude-opus-4.6(70.5%,96.5元),MiMo-V2-Flash-think-0204以不到十分之一的成本达到了相近的性能水平,成本效率比优势明显。
- 低成本区间竞争激烈:doubao-seed-1-8-251215以71.7%的准确率和7.3元的成本,在同成本区间表现更优;doubao-seed-1-6-thinking-250715(71.7%,15.6元)准确率相同但成本更高,MiMo在成本控制上有一定优势。
新旧模型代际对比
- 版本升级成效显著:相比自身旧版本MiMo-V2-Flash-think(62.0%),新版本提升了6.2个百分点,升级幅度在同期更新的模型中属于较大水平。
- 与其他新版本对比:doubao-seed-1-8-251215(71.7%)、GLM-5(71.0%)、ERNIE-5.0(70.9%)等近期发布的新版本在准确率上仍领先MiMo-V2-Flash-think-0204约2-3个百分点。
开源VS闭源对比
- 闭源模型整体领先:在排名前十的模型中,商用闭源模型占据主导地位,包括qwen3-max-think-2026-01-23、gemini-3-pro-preview、hunyuan-2.0-thinking-20251109、doubao-seed-1-8-251215等。
- MiMo的定位转变:MiMo-V2-Flash-think-0204从开源转为商用,在性能提升的同时也面临更激烈的商业竞争。相比仍保持开源的旧版本,新版本需要在性能上证明其商业价值。
- 响应时间劣势突出:645s的响应时间在所有对比模型中处于较慢水平,高于DeepSeek-V3.2-Think(144s)、GLM-4.7(96s)等竞品,这是当前版本需要关注的方向。
3、官方评测
根据小米官方发布的更新日志(2026/02/04),MiMo-V2-Flash-0204版本在多个维度进行了专项优化:
- 代码能力显著提升:Thinking模式针对编程场景进行了专门优化,在SWE-Bench Verified上的评分从74.2(0112版本)提升至78.6。
- 工具调用准确率大幅跃升:这是本次更新最亮眼的改进。Thinking模式下的工具调用准确率从64%跃升至97.0%。
- 指令遵循能力增强:AA-IFBench评分提升至72。
- 抗幻觉能力大幅改善:非幻觉率(Non-Hallucination Rate)提升至52%。
- 复杂任务处理优化:在Arena-Hard (Hard Prompt) Thinking模式下,评分从初代的54.1提升至60.6,在处理高难度逻辑问题时表现更佳。 - 思维链长度有效缩短:在AIME25、HMMT等基准测试中,平均生成长度缩减了13%至30%。具体数据显示,AIME25的平均Token从26984降至18879,HMMT从29294降至21470,在保持模型效果的同时有效降低了Token成本。
目前所有大模型评测文章在公众号:大模型评测及优化NoneLinear