小米用 8 张普通 GPU 把 1T 模型干到 1000 TPS?这事我得站个队

3 阅读4分钟

讲真,看到小米今天和 TileRT 联合发的 MiMo-V2.5-Pro-UltraSpeed,我第一反应是 — 又一个中国大厂蹭热度的,对吧?

1000 tokens/秒、单节点 8 卡、1T 参数、用的全是 commodity GPU(也就是大家能买得起的消费级/工业卡,不是 Groq 那种定制芯片、也不是 Cerebras 那种晶圆级怪兽),定价 3 倍于 MiMo-V2.5-Pro、速度 10 倍 —— 表面看这数字像营销话术,我本来认为这种 release 多数是 PPT 发布会。

但是今天晚上我抽个时间把官方那篇 blog 仔细读了一遍,发现里面的实现路径反而是这次最硬的部分。

一、它没在玩花活,是三件事硬怼出来

第一个是 FP4 量化。具体是 MXFP4 —— OCP 标准化的格式,它不是把整个模型全压到 FP4,而是只把 MoE 的 Expert 部分量化到 FP4。理由也很直接:1T 参数里 Expert 占大头,而 Expert 对量化最不敏感。这思路和今年年初业界吵了很久的「FP4 时代是不是来了」是一脉相承的,只是小米把它直接做到了能上线跑的程度。

第二个是 DFlash speculative decoding。Speculative decoding(推测解码)不是新东西了,但 DFlash 这次的关键改动是:草稿模型不再受自回归约束,它一次前向就能把一整块被 mask 的位置填满,配合 Muon 二阶优化器 + 自蒸馏训练,块大小限制在 8。

结果是:在 coding 场景下,草稿的 8 个 token 平均能 accept 6.30 个,最高 7.14。数学/推理 5.56,Agent 4.29。

这意味着什么?每 8 个 token 里 6-7 个一次就过验证,1000 TPS 不是「GPT-2 那种 1000 token/秒的小模型快」,而是 1T 模型在真实负载下的 decode 速度。

第三个是 TileRT 这个推理 runtime。它在 1000 TPS 下每个算子生命周期压到微秒级,传统算子边界(launch、sync、内存往返)就成了肉眼可见的 Execution Gaps。TileRT 干脆把这层 gap 在根上消掉,用 persistent kernels、tile pipelines、异构协作这套来打。

二、为什么我说这次不太一样

我一开始以为这种「中国大厂 1000 TPS」会和之前几次一样,demo 完就没人管了。但是有几个细节让我改变了判断。

第一,定价是 3 倍于 MiMo-V2.5-Pro、10 倍速度。这意味着它是商业化产品而不是研究 demo —— 申请制、限流、6 月 9 日到 6 月 23 日 23:59 北京时间试用窗口,每天每账号最多 10 个 queue entry、30 分钟单次会话、5 分钟无操作自动释放。 这堆限制都是给真实业务方准备的,不是给自媒体拍视频的。

第二,acceptance rate 在 coding 场景给到了 6.30 / 7.14 这种小数点后两位的数字,数学和 Agent 场景分开列,连「通用对话的 acceptance 还不够稳」都明说了 —— 这种「主动暴露弱点」的写法在国产发布里很少见。

三、但这个我还不太了解

我个人认为这套技术栈最大的不确定性在两点上。

第一点是 FP4 量化的实际负载表现。Blog 里写「capability essentially on par with FP8 baseline」,essentially 这个词很微妙,benchmark 上能打平不等于长尾任务能打平。这个我现在还没完全拍砖。

第二点是「单节点 8 GPU commodity」的边界。commodity 到底指的是 H100 还是 H200 还是 B200?没明说。如果是 8 张 B200 这种「贵但买得到」的卡,那「commodity」就有点擦边。这个也也许不太能只看 blog 就下结论。

四、站队

我的判断是:技术路径站得住。FP4 + DFlash + TileRT 这套三件套不是临时拼凑,是从模型到系统全栈一起 codesign 出来的。如果它真能稳定在 1000 TPS 给真实业务方用,那「中国大厂只能在 7B 级别卷价格」的旧叙事基本可以打住了。

但我同时觉得,它能不能扛住「Groq/Cerebras 的 LPU/晶圆级冲击」是另一回事 —— 硬件路线的代差不是软件优化能完全追平的。 小米这次的胜利是「在通用硬件上把延迟压到极限」这条路线的胜利,而不是「中国有了自己的 AI 芯片」的胜利。

你们呢?觉得 1000 TPS 在 coding 场景的实际意义有多大? 是真能改变 Agent 体验,还是又一波营销狂欢?