Gemma 4 + RTX 5090 爆出 578 tok/s:本地 Agent 的瓶颈,已经从速度变成长上下文

56 阅读8分钟

本地大模型又跑出一个很容易上头的数字。

5 月 8 日,Reddit r/LocalLLaMA 上一位用户发布测试:在单张 RTX 5090 上运行 Gemma 4 26B A4B ,配合 DFlash speculative decoding,输出速度从约 228 tok/s 提升到约 578 tok/s

接近 600 tok/s ,而且是一张消费级显卡。

如果只看这个数字,很容易得出一个激动人心的结论:本地 Agent 终于要起飞了。

但这条消息真正值得关注的,不是“本地模型又快了”,而是它把另一个问题推到了台前:当速度不再是最明显的短板,本地 Agent 的瓶颈会迅速转向 长上下文、工具调用稳定性和尾延迟

换句话说,本地 Agent 的竞争重点,正在从“能不能跑得快”,变成“长任务里能不能稳得住”。

578 tok/s,先别只看标题

这次测试的配置比较清楚:

  • GPU: RTX 5090,32GB VRAM
  • 推理框架: vLLM 0.19.2rc1
  • 主模型: cyankiwi/gemma-4-26B-A4B-it-AWQ-4bit
  • Draft 模型: z-lab/gemma-4-26B-A4B-it-DFlash
  • 测试负载: 256 input tokens / 1024 output tokens
  • 并发: 1
  • 请求速率: 1
  • speculative tokens 测试范围: 0 到 15

图表:DFlash 前后速度对比 图表:DFlash 前后速度对比

在不开 DFlash 的情况下,基线成绩约为 228 output tok/s ,平均端到端延迟约 4455 ms

开启 DFlash 后,作者给出的最佳实用配置是:

  • num_speculative_tokens=13
  • max_num_batched_tokens=8192
  • 578 output tok/s
  • 平均端到端延迟约 1738 ms
  • 2.56 倍 加速

这个结果确实漂亮。

对本地模型来说, 228 tok/s 已经是很强的交互速度;再推到 578 tok/s ,体感上会从“响应很快”变成“几乎在追着你输出”。

但这里有一个前提:这是一组短上下文、单并发、固定输出长度的 benchmark。它适合观察速度上限,却不能直接等同于真实 Agent 工作流。

DFlash 做的事:让小模型先猜,大模型再批改

DFlash 属于 speculative decoding。

它的基本思路并不复杂:不要让大模型每次只生成一个 token,而是让一个更轻的 draft model 先预测一段候选 token,再交给目标模型一次性验证。候选猜得越准,大模型需要“亲自生成”的步骤就越少,速度也就越快。

流程图:DFlash speculative decoding 工作流 流程图:DFlash speculative decoding 工作流

DFlash 的特殊之处在于,它不是按自回归方式一个 token 一个 token 地草拟,而是用 block diffusion 方式一次预测一整块 token。

根据 vLLM Speculators 文档和 Z Lab 项目页的介绍,DFlash 会利用目标模型的 hidden states,让 draft model 在一个并行前向过程中生成候选块,然后由目标模型验证。

Z Lab 给出的官方表述是:DFlash 试图突破传统 speculative decoding 中 draft model 仍然串行生成的限制;在 Qwen3-8B 上,官方称最高可达到 6 倍 lossless acceleration ,并比 EAGLE-3 快约 2.5 倍

放到这次 Gemma 4 + RTX 5090 的测试中,Reddit 作者观察到的是约 2.56 倍 的实际提升。

这不是魔法,更像是本地推理进入下一阶段的信号:模型量化、显存带宽、推理框架之外,推理算法本身也开始成为关键变量。

为什么 Gemma 4 26B A4B 适合这类测试

这次结果能跑出来,Gemma 4 26B A4B 本身也很关键。

它不是一个普通 dense 26B 模型,而是 MoE 路线:总参数规模约 26B ,但每个 token 激活约 4B 参数。

这让它特别适合单卡本地推理。

对生成阶段来说,系统面对的不是完整 dense 26B 的持续计算压力,而更接近一个激活规模较小的模型。再叠加 AWQ 4-bit 量化和 RTX 5090 的 32GB VRAM ,本地部署的可行性就明显提高了。

此前 datapnt 在 4 月 17 日发布的部署笔记中,也记录过类似方向:用 RTX 5090 跑 Gemma 4 26B A4B,作为私有、支持工具调用的 vLLM endpoint,并配置到 96k context 。那篇文章给出的 decode 速度约 196 tok/s ,与这次 Reddit 测试不开 DFlash 时的 228 tok/s 处在同一量级。

所以, 578 tok/s 不是凭空出现的奇迹,而是在一个已经比较成熟的组合上继续加速:MoE 架构、4-bit 量化、RTX 5090、vLLM,再加 DFlash。

真正的问题是:这个组合在真实 Agent 场景里,还能保持多少收益。

冷水来自评论区:长上下文不是短跑赛道

这次讨论最有价值的部分,反而出现在评论区。

有高赞评论提醒:DFlash 的吞吐表现很好,但在高上下文长度下会明显掉速。这里的“高上下文”,大约指 20k context 以上。

另一位用户给了更具体的真实场景反馈:他在约 35k context 、需要输出长 tool call 的提示中测试,开头速度能到 400 tok/s ,但很快掉到 200 tok/s ,后面还出现工具调用格式异常和循环输出。相比之下,不开 DFlash 的基线约 140 tok/s decode ,虽然慢一些,但任务完成更稳定。

示意图:速度瓶颈转向长上下文 示意图:速度瓶颈转向长上下文

这正是本地 Agent 和普通聊天机器人的分水岭。

普通聊天可以在几百到几千 token 的上下文里完成;Agent 真正工作时,往往要读代码、读文档、保留历史步骤、调用工具、接收工具返回,再继续规划下一步。

上下文长度很快就会进入 20k、35k、甚至 50k+

这时,短 prompt benchmark 里的 tok/s 数字仍然有参考价值,但已经不是唯一指标。长上下文下的速度曲线、缓存策略、尾延迟、结构化输出稳定性,都会直接影响 Agent 是否可用。

对 Agent 来说,快而不稳,甚至可能比慢一点更麻烦。因为一次 malformed tool call、一次循环输出、一次错误 patch,都可能让整条工作流中断。

本地 Agent 的指标体系正在变化

过去讨论本地模型,大家最关心的是三个问题:

能不能装进显存?

每秒能吐几个 token?

成本比云端低多少?

这些问题仍然重要,但已经不够了。

如果本地 Agent 真要承担长任务,新的指标会变成:

  • 20k+ context 后吞吐是否还能稳定
  • p95 / p99 尾延迟是否可控
  • 工具调用格式是否可靠
  • prefix caching 是否能复用固定上下文
  • 长流程中是否容易循环、跑偏或输出损坏

其中 prefix caching 会越来越重要。

很多 Agent 场景里,系统提示、工具说明、项目文件摘要、代码库上下文并不是每一轮都完全变化。如果这些前缀上下文能被有效缓存,长上下文成本才可能被压下来。

否则,再高的短上下文 tok/s,也很难覆盖真实工作流里的上下文膨胀。

这也是为什么“578 tok/s”应该被理解为一个很强的速度信号,而不是完整的本地 Agent 胜利宣言。

这条消息的真实含义

Gemma 4 + RTX 5090 跑到 578 tok/s ,说明单张消费级 GPU 的本地推理能力已经非常接近“可交互、可服务、可接入工具链”的阶段。

这对本地 Agent 是利好。

它意味着个人开发者、小团队、私有部署场景,可以更认真地考虑本地模型作为 Agent backend,而不是只把它当作离线玩具。

但它也提醒我们:本地 Agent 真正要过的关,不是短 prompt 里跑出多高的 tok/s,而是在长上下文、多工具、多轮任务里保持稳定。

短上下文速度解决的是“等得烦不烦”。

长上下文稳定性解决的是“能不能把活干完”。

这两件事不是一个层级的问题。

所以,这次 578 tok/s 最适合被看作一个转折点:本地模型的速度焦虑正在缓解,长上下文焦虑开始变成主角。

接下来真正值得看的,不是谁在短测试里刷新了 tok/s,而是谁能在 20k+、50k+、工具调用、多文件工作流 里,把速度、稳定性、成本和可控性一起做平衡。

如果这个问题被解决,本地 Agent 才会从“能跑起来的个人玩具”,变成真正能长期放在桌面上工作的基础设施。

到那时, 578 tok/s 可能只是序章。

真正重要的比赛,会从“谁说得快”,转向“谁记得久、干得稳、出错少”。

原文与参考链接

  • Reddit 原帖:Gemma 4 26B Hits 600 Tok/s on One RTX 5090

www.reddit.com/r/LocalLLaM…

  • vLLM DFlash 文档

docs.vllm.ai/projects/sp…

  • Z Lab DFlash 项目页

z-lab.ai/projects/df…

  • datapnt:Deploying Gemma 4 26B A4B on an RTX 5090

datapnt.com/blog/deploy…