Qwen3.6-27B + MTP：本地模型开始进入“可用速度” ![封面图](https://p0-xtjj-priv

封面图

5 月 6 日，Reddit 的 r/LocalLLaMA 上有个帖子挺值得看。

一位用户拿一张 V100 32GB SXM ，用 llama.cpp 里还没合并的 MTP 分支，跑 Qwen 3.6 27B ，结果生成速度从 29-30 tokens/s 提到了 54-55 tokens/s 。

这是什么概念？

大概就是你以为仓库角落里那张老数据中心卡已经退休养老了，结果它突然坐起来说：等等，我还能再打。

不过先别急着喊“本地 AI 革命”。一个社区用户跑出漂亮数字，只能说明这条路线有潜力；更大的变化是：本地大模型推理，正在从“能跑”慢慢走向“好用”。

先看事实：这次到底跑出了什么？

根据 Reddit 原帖，测试条件大致是这样：

模型：Qwen 3.6 27B

推理框架 ：llama.cpp 的 am17an MTP 分支

硬件：V100 32GB SXM，通过 PCIe 转接卡使用

使用场景 ：当作 VSCode Copilot 类本地助手

不开 MTP ：约 29-30 tokens/s

开启 MTP ：约 54-55 tokens/s

功耗限制 ：显卡限制在 150W

长上下文后 ：吃到 50k tokens 后，速度降到 40-45 tokens/s

速度对比图

如果只看 decode 速度，这基本接近 1.8 倍 提升。

对普通聊天来说，30 tokens/s 已经能用；但对代码助手来说，50 tokens/s 左右的体感会明显不一样。前者像一个认真但慢吞吞的同事，后者才更接近“你说完需求，它马上接上”的节奏。

但这里必须先把边界画清楚：这不是官方 benchmark，也不是论文实验，而是社区实测。它能说明“这条路有戏”，不能直接等同于“所有 V100 都能稳定复现”。

MTP 是什么？可以理解成 AI 版输入法联想

MTP，全称是 Multi-Token Prediction，多 token 预测。

普通大模型生成文本，基本是一个 token 一个 token 往外吐。它每说一个字，都要重新算一遍“下一个最可能是什么”。

MTP 的思路更像输入法联想：既然我大概率知道你下一串要说什么，那我能不能一次先猜几个？

如果主模型检查后发现“猜对了”，这些 token 就直接通过；如果猜错了，再回到正常生成流程。

所以 MTP 不是魔法，也不是把模型能力凭空变强。它更像是给推理过程加了一个“靠谱的草稿员”。草稿员猜得越准，主模型省下的时间越多。

这也是为什么大家会关注一个指标：acceptance rate ，也就是草稿 token 被接受的比例。

在 llama.cpp 的 PR #22673 里，作者 am17an 提到，他在 Qwen 3.6 27B 和 Qwen 3.6 35B-A3B 上测试时，使用 3 个 draft tokens 通常能看到大约 75% 的稳定接受率，并带来超过 2 倍 的基线加速。

MTP 流程解释图

这就解释了为什么这次不是单纯“换了一张更强的卡”。V100 还是那张 V100，真正变化的是推理方式。

为什么这次是 Qwen 3.6 27B？

这件事不能只看 V100，也要看 Qwen 3.6 27B 本身。

根据 Qwen 在 Hugging Face 上的模型卡，Qwen 3.6 27B 是一个 27B 参数 的开权重模型，重点能力包括 agentic coding、工具调用、长上下文和思考保留。

它的原生上下文长度是 262,144 tokens ，模型卡还写到可以扩展到 1,010,000 tokens 。

更关键的是，模型卡里明确标注：MTP: trained with multi-steps 。

这句话很重要。

不是所有模型都适合这么玩。你可以把它理解成：Qwen 3.6 27B 在训练和结构上，就给多 token 预测留下了接口。llama.cpp 社区这次做的，是把这个潜力在本地推理框架里接出来。

所以这条新闻的核心不是“V100 宝刀未老”这么简单，而是：

模型本身支持 MTP，推理框架开始支持 MTP，旧硬件刚好又有足够显存。三个条件凑在一起，本地推理体验就突然往前跳了一格。

这张 V100 为什么值得单独说？

V100 是 2017 年发布的 NVIDIA 数据中心 GPU。它不是消费级显卡，也不是现在最热门的 H100、B200。

但 V100 32GB 有几个特点，放到本地推理场景里反而挺香：

第一，它有 32GB HBM2 显存 。跑 27B 级量化模型，显存是第一道门槛。

第二，它的显存带宽大约在 900GB/s 级别。大模型推理很多时候不是算力先卡死，而是权重和 KV cache 在显存里搬来搬去，带宽很关键。

第三，二手市场和实验室库存里，V100 并不少见。它已经不是训练前沿模型的主力，但拿来做本地推理，反而可能重新找到位置。

这也是这条帖子让人眼前一亮的地方：它不是在说“再买一台昂贵服务器”，而是在提醒大家，一批旧数据中心硬件，可能会因为推理优化重新变得有用。

当然，普通读者也别误会。V100 32GB SXM 不是你家游戏电脑里的显卡，它涉及供电、散热、转接、驱动和平台兼容。它不是“买回来插上就完事”的消费品。

真正的看点：本地 AI 的体感门槛正在下降

本地大模型过去有一个很现实的问题：能跑，不等于好用。

一个模型如果每秒只吐十几个 token，做 demo 可以，真当编码助手就有点折磨。你让它帮你 review 代码，它慢悠悠地憋半天，用户的心态很容易从“AI 助手”变成“电子树懒”。

但如果 27B 级模型在本地能稳定进入 40-50 tokens/s 区间，事情就开始变得不一样。

它未必能替代最强云端模型，但可以承担很多日常任务：

代码解释、局部修改、单文件重构、项目扫描、工具调用、文档总结、普通 code review。

这些任务不一定每次都需要把数据发到云端最贵的模型那里。尤其是涉及私有代码、内部文档、客户数据的时候，本地模型的价值会变得更明显。

换句话说，本地 AI 的关键问题可能正在从“跑不跑得动”，变成“哪些任务值得本地跑，哪些任务才值得上云”。

这个转折，比单纯追逐某个跑分更值得关注。

但这波不能吹过头

把这件事理解成“本地模型彻底取代云端”，就有点太着急了。

原因很简单。

第一，llama.cpp 的 MTP 支持目前还在 PR 阶段。PR #22673 创建于 2026 年 5 月 4 日 ，截至调研时仍是 open ，并没有合并进主分支。

这意味着复现门槛不低。你需要拉特定分支，用对应的 MTP GGUF，再配合特定参数。它还不是一个成熟的开箱即用功能。

第二，MTP 会额外吃显存。

PR 作者在评论里说，MTP 当前是通过 --spec-type mtp 显式开启，额外内存开销理论上应小于总体内存的 10% 。但社区测试里也有人测到，在 RTX 3090 + RTX 3060 上，开启 MTP 后加载显存从 22.47 GiB 增加到 24.96 GiB ，多了约 2.49 GiB 。

第三，prefill 可能变慢。

有社区测试显示，开启 MTP 后 decode 从 22.97 tok/s 提升到 42.45 tok/s ，但 prefill 从 1315 tok/s 降到 665 tok/s 左右。

这意味着，如果你的任务是“超长输入、很短输出”，收益可能没那么好看。

第四，后端兼容还不稳定。

CUDA 用户普遍反馈更积极，但 Vulkan、ROCm、多 GPU tensor split 等组合里，都有人遇到速度下降或崩溃问题。

所以更准确的判断是：

MTP 已经展示出很强的潜力，但它现在仍处在工程快速迭代期，不是人人都能无脑开启的稳定红利。

社区数据能不能互相印证？能，但要谨慎看

Reddit 原帖不是孤例。

在 llama.cpp PR 讨论区里，也有不少用户给出了测试结果。

有人在 RTX 3090 + RTX 3060 上测 Qwen 3.6 27B Q6_K，生成速度从 22.97 tok/s 到 42.45 tok/s ，大约 1.85 倍 提升。

有人用 3 张 RTX 3060 12GB 测 Q4_K_M，生成速度从 18.51 tok/s 到 32.24 tok/s ，提升约 74% 。

还有用户在 5070 Ti + 3080 上，从 39.06 tok/s 跑到 72.58 tok/s ，draft token 接受率约 76% 。

这些测试的硬件、量化、上下文长度、参数都不一样，所以不能简单横向比较。

但方向是一致的：在 CUDA 等合适环境下，MTP 对 Qwen 3.6 这类模型的 decode 加速是明显的。

另一边，也有人反馈 Vulkan 后端开启 MTP 后反而更慢，从约 22 tok/s 掉到约 9 tok/s 。

这就是社区技术最真实的样子：兴奋和坑一起出现。越是有潜力的东西，早期越容易一边让人拍桌子，一边让人拍脑门。

这件事放到更大的趋势里看

过去一年，本地 AI 的讨论大多围绕模型本身：谁参数更小，谁量化更好，谁 benchmark 更漂亮。

但这次 Qwen 3.6 27B + MTP 的看点，更多在推理系统。

模型能力当然重要，但真正决定日常体验的，经常是推理框架、显存管理、KV cache、speculative decoding、MTP 这些工程细节。

这有点像手机拍照。

早年大家只看像素，后来才发现，传感器、算法、ISP、夜景合成、HDR，全都影响最终体验。

大模型也是一样。参数量只是一个维度，推理链路优化才是把模型从“实验室能跑”推到“日常能用”的关键。

如果 llama.cpp 后续把 MTP 支持合并并稳定下来，再加上更多原生支持 MTP 的开权重模型，本地推理的体验门槛会继续往下掉。

到时候，很多团队可能会重新算一笔账：

哪些任务必须调用云端最强模型？

哪些任务可以交给本地 27B？

哪些旧 GPU 还能继续发挥余热？

这个问题，比单纯讨论“55 tokens/s”更有价值。

最后说句人话

这次 Reddit 帖子的意义，不是证明 V100 一夜之间变成了新卡，也不是证明本地模型马上取代云端。

它更像一个信号：本地 AI 的瓶颈，正在被模型结构和推理工程一起往前推。

以前大家说本地模型，常常带点“能跑就不错了”的宽容。

但如果 27B 级模型能在旧数据中心卡上接近 50 tokens/s ，还能处理代码助手、工具调用、长上下文这些实际任务，那它就不再只是极客玩具。

它开始像一块可以被认真评估的基础设施。

当然，现在还早。MTP 分支要合并，兼容性要补，复现路径要简化，更多独立测试也要出来。

但方向已经挺清楚了：本地 AI 正在从“凑合能用”，走向“有些场景真能用”。

这一步，可能比某个榜单分数更值得关注。

原始链接与参考资料

Reddit 原帖：

www.reddit.com/r/LocalLLaM…

llama.cpp PR #22673：

github.com/ggml-org/ll…

Qwen 3.6 27B Hugging Face：

huggingface.co/Qwen/Qwen3.…

am17an Qwen3.6-27B-MTP-GGUF：

huggingface.co/am17an/Qwen…