还记得前段时间在 OpenRouter 榜单上持续刷屏的匿名模型 Hunter Alpha,社区开始议论。当时最主流的猜测是 DeepSeek V4 的内测版本,连OpenClaw 创始人 Peter Steinberger 都在 X 平台发文打听。
但就在不久,小米官方正式宣布,Hunter Alpha 和 Healer Alpha 均为小米 MiMo-V2 系列大模型的早期内测版本。小米 MiMo 大模型负责人罗福莉也在 X 平台公开认领了(难怪被认为是DS)。
MiMo 不仅仅是能对话,它还能干活。
MiMo-V2-Pro:高强度任务的基座
MiMo-V2-Pro 是整个系列的旗舰版本,总参数量超过 1T,激活参数为 42B。为了兼顾规模与推理效率,它采用了混合注意力架构(Hybrid Attention),并将混合比例提升到了 7:1。配合轻量化的多 Token 预测(MTP)层,生成速度得到了有效保障。
这款模型最显著的特征是支持 1M 超长上下文。在处理长代码工程或复杂的业务流编排时,大容量的上下文空间能够避免信息丢失。
根据 Artificial Analysis 的数据,MiMo-V2-Pro 的综合智能位列全球第八。
在实际的编程场景中,它的系统设计能力和代码风格已经非常接近 Claude Opus 4.6,但 API 的调用成本仅为同级别竞品的五分之一。
MiMo-V2-Omni:全模态的执行者
如果说 Pro 版本侧重于深度思考,MiMo-V2-Omni 则把重点放在了感知与行动的统一。它在底层架构上融合了文本、视觉和音频,能够直接处理超过 10 小时的长音频,或者进行复杂图表的视觉推理。
MiMo-V2-Omni 在浏览器操作(Browser Use)方面表现突出。
配合 OpenClaw 等智能体框架,它能够自主完成跨平台比价、联系客服砍价以及社交媒体内容发布等链路。在办公自动化领域,它与WPS深度合作,支持直接生成排版规范的 Word、Excel 和 PPT 文档。这种从感知到执行的闭环,让它不再只是一个聊天框,而是一个能真正接手工作的数字助手。
MiMo-V2-TTS:有情感的表达
MiMo-V2-TTS 负责解决 Agent 沟通的自然度问题。基于上亿小时的语音数据预训练,它支持通过自然语言描述来控制说话风格。除了基础的方言支持和角色扮演,它还能在语音中自然地插入咳嗽、叹气或笑声等副语言事件。
这款模型具备文本深层理解能力,能够根据标点符号或大小写自动调整语速和重音。值得一提的是,它还原生支持高质量的歌声合成,是目前市面上少数兼具说、演、唱能力的语音大模型。
快速体验 MiMo-V2 系列模型
小米 MiMo API 开放平台兼容 OpenAI 和 Anthropic 两种主流接口格式,但需要准备 Python 环境。
对于不希望手动配置环境变量或处理各种依赖冲突的用户,推荐使用 ServBay。这是一款开发环境管理工具,支持一键安装 Python 以及各种数据库和服务。
通过 ServBay 部署好环境后,直接去获取API Key 和用 pip 安装对应的 SDK 即可。
获取 API Key: 首先,需要登录 Xiaomi MiMo API 开放平台(platform.xiaomimimo.com),使用小米账号登录后,在控制台中创建并获取你的 API Key。记住,这个 Key 关系到你的账号安全和额度,一定要妥善保管,最好配置到系统的环境变量中。
安装 Python SDK: MiMo API 兼容 OpenAI 和 Anthropic 两种主流 API 格式。你可以根据自己的习惯选择使用哪种 SDK。以 OpenAI 格式为例,在你的终端里运行以下命令安装 OpenAI Python SDK:
pip install -U openai
Python 调用示例: 下面是一段调用 MiMo-V2-Pro 的 Python 代码示例。请记得将 MIMO_API_KEY 替换为你自己的 API Key,或者确保它已正确配置在环境变量中。
codePython
import os
from openai import OpenAI
# 从环境变量获取 API Key,或者直接替换为你的实际 API Key# os.environ.get("MIMO_API_KEY")
client = OpenAI(
api_key=os.getenv("MIMO_API_KEY"),
base_url="https://api.xiaomimimo.com/v1" # OpenAI 格式的 API 地址
)
completion = client.chat.completions.create(
model="mimo-v2-pro", # 指定模型为 mimo-v2-pro
messages=[
{
"role": "system",
"content": "你是MiMo,是小米公司研发的AI智能助手。今天的日期:星期二,2025年12月16日,你的知识截止日期是2024年12月。"
},
{
"role": "user",
"content": "请用中文介绍一下 MiMo-V2 系列模型的特点。"
}
],
max_completion_tokens=1024, # 设置最大生成 tokens 数
temperature=1.0, # 控制生成文本的随机性
top_p=0.95, # 控制生成文本的多样性
stream=False, # 是否流式输出
stop=None,
frequency_penalty=0,
presence_penalty=0
)
print(completion.choices[0].message.content)
在进行多轮工具调用时,有一个小技巧:模型在返回工具调用的同时,会附带一个 reasoning_content 字段。为了让模型的对话更连贯,保持思维路径的完整,建议在后续的每次请求中,都把之前所有的 reasoning_content 保留在 messages 数组里。
目前 MiMo-V2-Pro 的 API 采取分段计价模式。256K 上下文以内的输入价格为 1 美元/百万 tokens,输出为 3 美元/百万 tokens。而 TTS 模型目前在小米 MiMo API 开放平台提供限时免费访问。
小米 MiMo-V2 系列的发布,开发者和 Agent 爱好者们又有了一套强大且极具性价比的工具。从高强度的代码编写到全模态的现实交互,再到富有情感的语音表达,这些模型正在将 AI 从会聊天推向能干活的新阶段。