小米 MiMo-V2-Omni 实测小米发布全模态旗舰MiMo-V2-Omni，实现音视图文统一感知与行动。评测显示中文

小米在MiMo-V2-Flash之后，正式发布了MiMo-V2系列的全模态旗舰——MiMo-V2-Omni。不同于此前侧重推理和代码的Flash系列，这一次小米瞄准的是"感知与行动的统一"：一个能同时处理图像、视频、音频和文本，并将感知直接转化为行动的全模态基座模型。官方将其定位为"面向智能体时代的全模态基座"，强调其在跨模态理解与真实环境中的Agent执行能力。我们对其API版本MiMo-V2-Omni进行了全面评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现。

需要特别说明的是，本次评测侧重中文场景下的综合文本与逻辑能力考察。MiMo-V2-Omni作为原生全模态大模型，其核心竞争力在于跨模态感知（图像、视频、超长音频理解）和Agent执行能力（浏览器操作、端到端任务自动化）。这些能力在当前以中文文本为核心的评测框架下，仅展露了冰山一角。不过，正因如此，中文文本场景下的表现恰恰能检验其底层语言和逻辑能力的真实底色。

MiMo-V2-Omni版本表现：

测试题数：约1.5万
总分（准确率）：68.6%
平均耗时（每次调用）：268s
平均token（每次调用消耗的token）：2883
平均花费（每千次调用的人民币花费）：34.8

1、新旧对决：从纯文本推理到全模态感知的路径切换

MiMo-V2-Omni与前代MiMo-V2-Flash在产品定位上存在本质差异——Flash是一款以推理、代码和Agent场景见长的纯文本MoE模型，而Omni则是融合了图像、视频、音频编码器的全模态基座模型。因此，以下对比更适合理解为"同一家族内不同路线的能力基准对照"，而非简单的版本升级。对比MiMo-V2-Flash-think-0204，数据如下：

*数据来源：非线智能ReLE评测github.com/jeinlee1991…

*输出价格单位：元/百万token

整体准确率基本持平：MiMo-V2-Omni准确率为68.6%，相比MiMo-V2-Flash-think-0204的68.2%微幅提升0.4个百分点，排名从第32位升至第30位。考虑到两款模型的架构路线截然不同，在纯中文文本评测中取得几乎持平的成绩，意味着Omni在承载多模态能力的同时，并未在语言内核上付出明显代价。
教育领域提升显著：从49.7%提升至56.2%（+6.5%），这是所有维度中变化幅度最大的，表明全模态架构在知识覆盖和教育场景下的推理能力有所增强。
Agent与工具调用有所提升：从62.3%提升至66.0%（+3.7%），与Omni主打的"感知即行动"定位相吻合。
法律与行政公务小幅提升：从80.7%提升至83.3%（+2.6%），保持了较高水准。
推理与数学计算略有改善：从71.7%提升至73.3%（+1.6%），维持在中上水平。
部分领域存在回调：值得注意的是，"语言与指令遵从"从66.5%降至62.0%（-4.5%），"金融"从76.2%降至71.7%（-4.5%），"医疗与心理健康"从79.2%降至77.7%（-1.5%）。这几个维度的回调，可能反映出全模态架构在统一训练过程中，部分领域的中文文本能力存在一定权衡。
响应速度显著提升：平均耗时从645s大幅缩短至268s，提速约58%。
Token消耗减少但成本上涨：平均Token消耗从3896降至2883（-26%），输出更加精炼。然而，输出价格从2.1元/M token上调至14.0元/M token，导致每千次调用的费用从7.8元增加至34.8元，成本上涨约346%。

2、横向对比：全模态旗舰的中文竞争力

在当前主流大模型竞争格局中，MiMo-V2-Omni作为小米全模态旗舰模型表现如何？我们从三个维度进行横向对比分析：

*数据来源：非线智能ReLE评测github.com/jeinlee1991…

同成本档位对比

在30至40元/千次的成本区间，MiMo-V2-Omni（68.6%，34.8元）的直接竞争对手包括MiMo-V2-Pro（67.6%，50.2元）、GLM-4.6（68.1%，37.6元）和gpt-5-2025-08-07（68.9%，31.9元）等。从准确率来看，MiMo-V2-Omni与同档位模型基本持平，略高于MiMo-V2-Pro和GLM-4.6，与gpt-5-2025-08-07差距仅0.3个百分点。
向上看，claude-sonnet-4.5-thinking（68.8%，305.1元）以接近的准确率却付出了近9倍的成本，而claude-opus-4.6（70.5%，96.5元）准确率高出约2个百分点但成本是其2.8倍。MiMo-V2-Omni在该档位内展现了合理的成本效率。
向下看，DeepSeek-V3.1-Think（67.7%，24.8元）和MiniMax-M2.7（67.7%，32.4元）以更低的成本提供了接近的准确率水平。不过需要强调的是，纯文本准确率并非MiMo-V2-Omni的核心战场——它的差异化价值在于跨模态感知和Agent执行能力。

新旧模型对比

小米MiMo产品线矩阵：从总榜来看，小米目前形成了覆盖多层级的模型矩阵。MiMo-V2-Omni（68.6%，第30位）作为全模态旗舰居首，MiMo-V2-Flash-think-0204（68.2%，第32位）作为纯文本推理模型紧随其后，MiMo-V2-Pro（67.6%，第39位）提供均衡选择，MiMo-V2-Flash-think（62.0%，第80位）则覆盖轻量场景。值得注意的是，前三款模型在中文文本准确率上差距极小（68.6%至67.6%），但在成本、速度和模态覆盖上形成了明显的差异化梯队。
榜单头部格局依然由Doubao-Seed-2.0-pro（76.5%）、gemini-3.1-pro-preview（74.8%）和qwen3.5-plus（74.6%）把持，MiMo-V2-Omni与头部梯队在中文文本维度仍存在约6至8个百分点的差距。

开源VS闭源对比

在商用闭源阵营中，其68.6%的准确率处于中游位置，与gpt-5.3-chat（70.6%，51.5元）、ERNIE-5.0（70.9%，89.2元）等存在一定差距。
对比开源阵营，GLM-4.7（71.5%，52.5元）、Kimi-K2.5-Thinking（71.3%，77.1元）、DeepSeek-V3.2-Think（70.9%，7.5元）等开源模型在总分准确率上具备较明显的优势。尤其是DeepSeek-V3.2-Think，以7.5元的极低成本实现了70.9%的准确率，在成本效率上优势明显。
不过，MiMo-V2-Omni的独特价值在于其全模态统一架构带来的跨模态理解和Agent能力。官方展示的实际场景——包括自动驾驶视觉风险预判、超长播客理解（原生支持10小时以上连续音频）、跨平台浏览器Agent操作、端到端视频制作与发布等——均超出了纯文本模型的能力边界。在多模态Agent能力成为刚需的应用场景中，MiMo-V2-Omni提供了当前少数可用的统一解决方案。

3、官方评测

MiMo-V2-Omni的官方评测覆盖了感知能力和Agent能力两大维度，以下基于官方博客内容进行整理（mimo.xiaomi.com/mimo-v2-omn…

感知能力

官方在音频理解、视觉理解和视听联合理解三个方向对MiMo-V2-Omni进行了系统评测。

音频理解：在MMAU-Pro、BigBench-Audio等基准上，MiMo-V2-Omni不仅具备转写能力，还能进行环境声音分类、多说话者分离、音视频联合推理，并原生支持超过10小时的连续音频理解。官方表示，其整体表现超越Gemini 3 Pro，是目前最强的音频理解基座模型之一。
视觉理解：在MMMU-Pro、CharXiv RQ等基准上，MiMo-V2-Omni展现了跨学科视觉推理和复杂图表分析能力，超越Claude Opus 4.6，接近Gemini 3等顶尖闭源模型水平。
视频理解：在VideoMME、FutureOmni等基准上，MiMo-V2-Omni支持原生音视频联合输入。通过创新的视频预训练，模型不仅能感知当前场景，还能基于完整的感官上下文预判接下来会发生什么。

Agent能力

官方在多模态Agent任务和文本/代码Agent任务两个方向进行了评测。

多模态Agent：在MM-BrowserComp、OmniGAIA、Claw Eval等基准上，MiMo-V2-Omni的测试场景涵盖网页浏览器、移动端界面和复杂应用工作流，要求精确的视觉定位、自适应规划和端到端执行。
文本与代码Agent：在PinchBench、SWE-Bench Verified、GDPVal等基准上，MiMo-V2-Omni在日常任务、软件工程和专业生产力场景的表现接近业界最强推理模型。官方强调，全模态统一架构并未对Agent能力造成"能力税"——在视觉和音频理解之外，Agent任务同样达到了前沿水平。

目前所有大模型评测文章在公众号：大模型评测及优化NoneLinear