小米用 8 张普通 GPU 把 1T 模型干到 1000 TPS？这事我得站个队讲真，看到小米今天和 TileRT 联合

讲真，看到小米今天和 TileRT 联合发的 MiMo-V2.5-Pro-UltraSpeed，我第一反应是 — 又一个中国大厂蹭热度的，对吧？

1000 tokens/秒、单节点 8 卡、1T 参数、用的全是 commodity GPU（也就是大家能买得起的消费级/工业卡，不是 Groq 那种定制芯片、也不是 Cerebras 那种晶圆级怪兽），定价 3 倍于 MiMo-V2.5-Pro、速度 10 倍 —— 表面看这数字像营销话术，我本来认为这种 release 多数是 PPT 发布会。

但是今天晚上我抽个时间把官方那篇 blog 仔细读了一遍，发现里面的实现路径反而是这次最硬的部分。

一、它没在玩花活，是三件事硬怼出来

第一个是 FP4 量化。具体是 MXFP4 —— OCP 标准化的格式，它不是把整个模型全压到 FP4，而是只把 MoE 的 Expert 部分量化到 FP4。理由也很直接：1T 参数里 Expert 占大头，而 Expert 对量化最不敏感。这思路和今年年初业界吵了很久的「FP4 时代是不是来了」是一脉相承的，只是小米把它直接做到了能上线跑的程度。

第二个是 DFlash speculative decoding。Speculative decoding（推测解码）不是新东西了，但 DFlash 这次的关键改动是：草稿模型不再受自回归约束，它一次前向就能把一整块被 mask 的位置填满，配合 Muon 二阶优化器 + 自蒸馏训练，块大小限制在 8。

结果是：在 coding 场景下，草稿的 8 个 token 平均能 accept 6.30 个，最高 7.14。数学/推理 5.56，Agent 4.29。

这意味着什么？每 8 个 token 里 6-7 个一次就过验证，1000 TPS 不是「GPT-2 那种 1000 token/秒的小模型快」，而是 1T 模型在真实负载下的 decode 速度。

第三个是 TileRT 这个推理 runtime。它在 1000 TPS 下每个算子生命周期压到微秒级，传统算子边界（launch、sync、内存往返）就成了肉眼可见的 Execution Gaps。TileRT 干脆把这层 gap 在根上消掉，用 persistent kernels、tile pipelines、异构协作这套来打。

二、为什么我说这次不太一样

我一开始以为这种「中国大厂 1000 TPS」会和之前几次一样，demo 完就没人管了。但是有几个细节让我改变了判断。

第一，定价是 3 倍于 MiMo-V2.5-Pro、10 倍速度。这意味着它是商业化产品而不是研究 demo —— 申请制、限流、6 月 9 日到 6 月 23 日 23:59 北京时间试用窗口，每天每账号最多 10 个 queue entry、30 分钟单次会话、5 分钟无操作自动释放。这堆限制都是给真实业务方准备的，不是给自媒体拍视频的。

第二，acceptance rate 在 coding 场景给到了 6.30 / 7.14 这种小数点后两位的数字，数学和 Agent 场景分开列，连「通用对话的 acceptance 还不够稳」都明说了 —— 这种「主动暴露弱点」的写法在国产发布里很少见。

三、但这个我还不太了解

我个人认为这套技术栈最大的不确定性在两点上。

第一点是 FP4 量化的实际负载表现。Blog 里写「capability essentially on par with FP8 baseline」，essentially 这个词很微妙，benchmark 上能打平不等于长尾任务能打平。这个我现在还没完全拍砖。

第二点是「单节点 8 GPU commodity」的边界。commodity 到底指的是 H100 还是 H200 还是 B200？没明说。如果是 8 张 B200 这种「贵但买得到」的卡，那「commodity」就有点擦边。这个也也许不太能只看 blog 就下结论。

四、站队

我的判断是：技术路径站得住。FP4 + DFlash + TileRT 这套三件套不是临时拼凑，是从模型到系统全栈一起 codesign 出来的。如果它真能稳定在 1000 TPS 给真实业务方用，那「中国大厂只能在 7B 级别卷价格」的旧叙事基本可以打住了。

但我同时觉得，它能不能扛住「Groq/Cerebras 的 LPU/晶圆级冲击」是另一回事 —— 硬件路线的代差不是软件优化能完全追平的。小米这次的胜利是「在通用硬件上把延迟压到极限」这条路线的胜利，而不是「中国有了自己的 AI 芯片」的胜利。

你们呢？觉得 1000 TPS 在 coding 场景的实际意义有多大？是真能改变 Agent 体验，还是又一波营销狂欢？