Qwen3.6-27B + MTP:本地模型开始进入“可用速度”

1 阅读10分钟

封面图

5 月 6 日,Reddit 的 r/LocalLLaMA 上有个帖子挺值得看。

一位用户拿一张 V100 32GB SXM ,用 llama.cpp 里还没合并的 MTP 分支,跑 Qwen 3.6 27B ,结果生成速度从 29-30 tokens/s 提到了 54-55 tokens/s

这是什么概念?

大概就是你以为仓库角落里那张老数据中心卡已经退休养老了,结果它突然坐起来说:等等,我还能再打。

不过先别急着喊“本地 AI 革命”。一个社区用户跑出漂亮数字,只能说明这条路线有潜力;更大的变化是:本地大模型推理,正在从“能跑”慢慢走向“好用”。

先看事实:这次到底跑出了什么?

根据 Reddit 原帖,测试条件大致是这样:

模型 :Qwen 3.6 27B

推理框架llama.cpp 的 am17an MTP 分支

硬件 :V100 32GB SXM,通过 PCIe 转接卡使用

使用场景 :当作 VSCode Copilot 类本地助手

不开 MTP :约 29-30 tokens/s

开启 MTP :约 54-55 tokens/s

功耗限制 :显卡限制在 150W

长上下文后 :吃到 50k tokens 后,速度降到 40-45 tokens/s

速度对比图 速度对比图

如果只看 decode 速度,这基本接近 1.8 倍 提升。

对普通聊天来说,30 tokens/s 已经能用;但对代码助手来说,50 tokens/s 左右的体感会明显不一样。前者像一个认真但慢吞吞的同事,后者才更接近“你说完需求,它马上接上”的节奏。

但这里必须先把边界画清楚:这不是官方 benchmark,也不是论文实验,而是社区实测。它能说明“这条路有戏”,不能直接等同于“所有 V100 都能稳定复现”。

MTP 是什么?可以理解成 AI 版输入法联想

MTP,全称是 Multi-Token Prediction,多 token 预测。

普通大模型生成文本,基本是一个 token 一个 token 往外吐。它每说一个字,都要重新算一遍“下一个最可能是什么”。

MTP 的思路更像输入法联想:既然我大概率知道你下一串要说什么,那我能不能一次先猜几个?

如果主模型检查后发现“猜对了”,这些 token 就直接通过;如果猜错了,再回到正常生成流程。

所以 MTP 不是魔法,也不是把模型能力凭空变强。它更像是给推理过程加了一个“靠谱的草稿员”。草稿员猜得越准,主模型省下的时间越多。

这也是为什么大家会关注一个指标:acceptance rate ,也就是草稿 token 被接受的比例。

llama.cpp 的 PR #22673 里,作者 am17an 提到,他在 Qwen 3.6 27B 和 Qwen 3.6 35B-A3B 上测试时,使用 3 个 draft tokens 通常能看到大约 75% 的稳定接受率,并带来超过 2 倍 的基线加速。

MTP 流程解释图 MTP 流程解释图

这就解释了为什么这次不是单纯“换了一张更强的卡”。V100 还是那张 V100,真正变化的是推理方式。

为什么这次是 Qwen 3.6 27B?

这件事不能只看 V100,也要看 Qwen 3.6 27B 本身。

根据 Qwen 在 Hugging Face 上的模型卡,Qwen 3.6 27B 是一个 27B 参数 的开权重模型,重点能力包括 agentic coding、工具调用、长上下文和思考保留。

它的原生上下文长度是 262,144 tokens ,模型卡还写到可以扩展到 1,010,000 tokens

更关键的是,模型卡里明确标注:MTP: trained with multi-steps

这句话很重要。

不是所有模型都适合这么玩。你可以把它理解成:Qwen 3.6 27B 在训练和结构上,就给多 token 预测留下了接口。llama.cpp 社区这次做的,是把这个潜力在本地推理框架里接出来。

所以这条新闻的核心不是“V100 宝刀未老”这么简单,而是:

模型本身支持 MTP,推理框架开始支持 MTP,旧硬件刚好又有足够显存。三个条件凑在一起,本地推理体验就突然往前跳了一格。

这张 V100 为什么值得单独说?

V100 是 2017 年发布的 NVIDIA 数据中心 GPU。它不是消费级显卡,也不是现在最热门的 H100、B200。

但 V100 32GB 有几个特点,放到本地推理场景里反而挺香:

第一,它有 32GB HBM2 显存 。跑 27B 级量化模型,显存是第一道门槛。

第二,它的显存带宽大约在 900GB/s 级别。大模型推理很多时候不是算力先卡死,而是权重和 KV cache 在显存里搬来搬去,带宽很关键。

第三,二手市场和实验室库存里,V100 并不少见。它已经不是训练前沿模型的主力,但拿来做本地推理,反而可能重新找到位置。

这也是这条帖子让人眼前一亮的地方:它不是在说“再买一台昂贵服务器”,而是在提醒大家,一批旧数据中心硬件,可能会因为推理优化重新变得有用。

当然,普通读者也别误会。V100 32GB SXM 不是你家游戏电脑里的显卡,它涉及供电、散热、转接、驱动和平台兼容。它不是“买回来插上就完事”的消费品。

真正的看点:本地 AI 的体感门槛正在下降

本地大模型过去有一个很现实的问题:能跑,不等于好用。

一个模型如果每秒只吐十几个 token,做 demo 可以,真当编码助手就有点折磨。你让它帮你 review 代码,它慢悠悠地憋半天,用户的心态很容易从“AI 助手”变成“电子树懒”。

但如果 27B 级模型在本地能稳定进入 40-50 tokens/s 区间,事情就开始变得不一样。

它未必能替代最强云端模型,但可以承担很多日常任务:

代码解释、局部修改、单文件重构、项目扫描、工具调用、文档总结、普通 code review。

这些任务不一定每次都需要把数据发到云端最贵的模型那里。尤其是涉及私有代码、内部文档、客户数据的时候,本地模型的价值会变得更明显。

换句话说,本地 AI 的关键问题可能正在从“跑不跑得动”,变成“哪些任务值得本地跑,哪些任务才值得上云”。

这个转折,比单纯追逐某个跑分更值得关注。

但这波不能吹过头

把这件事理解成“本地模型彻底取代云端”,就有点太着急了。

原因很简单。

第一,llama.cpp 的 MTP 支持目前还在 PR 阶段。PR #22673 创建于 2026 年 5 月 4 日 ,截至调研时仍是 open ,并没有合并进主分支。

这意味着复现门槛不低。你需要拉特定分支,用对应的 MTP GGUF,再配合特定参数。它还不是一个成熟的开箱即用功能。

第二,MTP 会额外吃显存。

PR 作者在评论里说,MTP 当前是通过 --spec-type mtp 显式开启,额外内存开销理论上应小于总体内存的 10% 。但社区测试里也有人测到,在 RTX 3090 + RTX 3060 上,开启 MTP 后加载显存从 22.47 GiB 增加到 24.96 GiB ,多了约 2.49 GiB

第三,prefill 可能变慢。

有社区测试显示,开启 MTP 后 decode 从 22.97 tok/s 提升到 42.45 tok/s ,但 prefill 从 1315 tok/s 降到 665 tok/s 左右。

这意味着,如果你的任务是“超长输入、很短输出”,收益可能没那么好看。

第四,后端兼容还不稳定。

CUDA 用户普遍反馈更积极,但 Vulkan、ROCm、多 GPU tensor split 等组合里,都有人遇到速度下降或崩溃问题。

所以更准确的判断是:

MTP 已经展示出很强的潜力,但它现在仍处在工程快速迭代期,不是人人都能无脑开启的稳定红利。

社区数据能不能互相印证?能,但要谨慎看

Reddit 原帖不是孤例。

llama.cpp PR 讨论区里,也有不少用户给出了测试结果。

有人在 RTX 3090 + RTX 3060 上测 Qwen 3.6 27B Q6_K,生成速度从 22.97 tok/s42.45 tok/s ,大约 1.85 倍 提升。

有人用 3 张 RTX 3060 12GB 测 Q4_K_M,生成速度从 18.51 tok/s32.24 tok/s ,提升约 74%

还有用户在 5070 Ti + 3080 上,从 39.06 tok/s 跑到 72.58 tok/s ,draft token 接受率约 76%

这些测试的硬件、量化、上下文长度、参数都不一样,所以不能简单横向比较。

但方向是一致的:在 CUDA 等合适环境下,MTP 对 Qwen 3.6 这类模型的 decode 加速是明显的。

另一边,也有人反馈 Vulkan 后端开启 MTP 后反而更慢,从约 22 tok/s 掉到约 9 tok/s

这就是社区技术最真实的样子:兴奋和坑一起出现。越是有潜力的东西,早期越容易一边让人拍桌子,一边让人拍脑门。

这件事放到更大的趋势里看

过去一年,本地 AI 的讨论大多围绕模型本身:谁参数更小,谁量化更好,谁 benchmark 更漂亮。

但这次 Qwen 3.6 27B + MTP 的看点,更多在推理系统。

模型能力当然重要,但真正决定日常体验的,经常是推理框架、显存管理、KV cache、speculative decoding、MTP 这些工程细节。

这有点像手机拍照。

早年大家只看像素,后来才发现,传感器、算法、ISP、夜景合成、HDR,全都影响最终体验。

大模型也是一样。参数量只是一个维度,推理链路优化才是把模型从“实验室能跑”推到“日常能用”的关键。

如果 llama.cpp 后续把 MTP 支持合并并稳定下来,再加上更多原生支持 MTP 的开权重模型,本地推理的体验门槛会继续往下掉。

到时候,很多团队可能会重新算一笔账:

哪些任务必须调用云端最强模型?

哪些任务可以交给本地 27B?

哪些旧 GPU 还能继续发挥余热?

这个问题,比单纯讨论“55 tokens/s”更有价值。

最后说句人话

这次 Reddit 帖子的意义,不是证明 V100 一夜之间变成了新卡,也不是证明本地模型马上取代云端。

它更像一个信号:本地 AI 的瓶颈,正在被模型结构和推理工程一起往前推。

以前大家说本地模型,常常带点“能跑就不错了”的宽容。

但如果 27B 级模型能在旧数据中心卡上接近 50 tokens/s ,还能处理代码助手、工具调用、长上下文这些实际任务,那它就不再只是极客玩具。

它开始像一块可以被认真评估的基础设施。

当然,现在还早。MTP 分支要合并,兼容性要补,复现路径要简化,更多独立测试也要出来。

但方向已经挺清楚了:本地 AI 正在从“凑合能用”,走向“有些场景真能用”。

这一步,可能比某个榜单分数更值得关注。

原始链接与参考资料

Reddit 原帖:

www.reddit.com/r/LocalLLaM…

llama.cpp PR #22673:

github.com/ggml-org/ll…

Qwen 3.6 27B Hugging Face:

huggingface.co/Qwen/Qwen3.…

am17an Qwen3.6-27B-MTP-GGUF:

huggingface.co/am17an/Qwen…