DualPath: 突破 AI Agent 推理中的存储带宽瓶颈

3 阅读8分钟

论文解读:DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference

arXiv ID: 2602.21548

作者:Yongtong Wu 等人(共13位作者)

发表时间:2026年2月

arxiv.org/abs/2602.21…

📋 论文概览

随着 AI Agent(智能体)应用的快速发展,大语言模型(LLM)不再仅仅是一次性的对话工具,而是能够进行多轮交互、调用工具、执行代码的智能助手。然而,这种多轮迭代的 Agent 推理模式带来了一个此前被忽视的性能瓶颈:KV-Cache 的存储 I/O 瓶颈

本文提出的 DualPath 系统通过创新的双路径架构,将离线推理吞吐量提升了 1.87 倍,在线服务吞吐量平均提升 1.96 倍,同时满足服务级别目标(SLO)。


🔍 问题背景

什么是 Agentic LLM?

Agentic LLM(智能体大语言模型)是指能够:

  • 进行多轮思考和推理
  • 调用外部工具(如搜索引擎、计算器、数据库)
  • 生成并执行代码
  • 根据反馈迭代优化结果

这种模式下,一个简单的用户请求可能触发数十次甚至上百次的内部迭代。

KV-Cache 是什么?

在 Transformer 架构的 LLM 中,为了避免重复计算,系统会缓存每个 token 的 Key 和 Value 向量(称为 KV-Cache)。在生成每个新 token 时,只需:

  1. 计算新 token 的 K、V
  2. 读取之前所有 token 的 KV-Cache
  3. 进行 Attention 计算

传统方法的问题

GPU 内存限制:

  • 现代 LLM 的 KV-Cache 可能占用数十 GB 空间
  • 对于长上下文(如百万 token)或批量处理,GPU 内存无法容纳所有 KV-Cache

现有解决方案的不足: 传统的 disaggregated serving 架构会将 KV-Cache 存储在远程存储系统(如 SSD、分布式存储)中。在 Agent 的每次迭代中:

  1. Prefill 阶段:处理新输入的 prompt,生成 KV-Cache
  2. Decode 阶段:逐个生成 token,每次都需要从存储中加载完整的 KV-Cache

关键瓶颈: 论文发现,在 Agentic 场景下,Decode 阶段的存储 I/O 带宽成为主要瓶颈,而非传统认为的计算瓶颈。原因是:

  • Decode 每生成一个 token 都需要读取完整 KV-Cache
  • 多个 Agent 并发时,存储带宽被迅速打满
  • GPU 等待 I/O 的时间远超过实际计算时间

💡 DualPath 核心思想

传统架构:单路径模式

[存储系统]
    ↓ (加载 KV-Cache)
[Prefill 引擎] → 生成新的 KV-Cache → [存储系统][Decode 引擎] ← (再次从存储加载 KV-Cache)

在这种模式下:

  • KV-Cache 从存储加载到 Prefill 引擎
  • Decode 引擎需要再次从存储读取
  • 存储带宽被重复访问占满

DualPath:双路径架构

路径 1(传统路径):
[存储系统][Prefill 引擎] → 生成新 KV-Cache

路径 2(新增路径):
[存储系统][Decode 引擎] → (通过 RDMA) → [Prefill 引擎]

关键创新点:

  1. 直接加载到 Decode 引擎

    • KV-Cache 从存储直接加载到 Decode 引擎
    • 避免先加载到 Prefill 再转发的开销
  2. 利用 RDMA 高速传输

    • Decode 引擎通过 RDMA(Remote Direct Memory Access)将 KV-Cache 高效传输到 Prefill 引擎
    • RDMA 带宽通常远高于存储带宽
    • 绕过 CPU,降低延迟
  3. 网络负载均衡

    • 将原本集中在存储的 I/O 压力分散到网络传输
    • 更好地利用数据中心的网络基础设施

🛠️ 技术实现细节

1. KV-Cache 块布局优化

DualPath 采用针对顺序访问优化的存储布局:

  • 块级组织:将 KV-Cache 按块(block)组织,每个块包含固定数量的 token
  • 顺序访问优化:减少随机寻址,提高存储系统的吞吐量
  • 预取机制:在 Decode 开始前预加载部分 KV-Cache

2. 流量隔离机制

双路径架构天然地将不同类型的流量分离:

  • 写流量(Prefill 生成新 KV-Cache):从 GPU 到存储
  • 读流量(Decode 加载旧 KV-Cache):从存储到 GPU
  • 传输流量(Decode 到 Prefill):通过 RDMA

这种隔离避免了流量竞争,提高了整体效率。

3. 独立队列和调度

系统为两条路径维护独立的:

  • 请求队列:Prefill 和 Decode 请求分别排队
  • 调度策略:根据各自的延迟和吞吐特性优化
  • 资源分配:动态调整两条路径的带宽分配

4. 带宽优化技术

  • 批处理(Batching):将多个小的 KV-Cache 请求合并
  • 压缩:对 KV-Cache 进行轻量级压缩(如量化)
  • 流水线:I/O 和计算操作重叠执行

📊 实验评估

实验设置

  • 模型:评估了三种不同规模的模型
  • 工作负载:真实生产环境中的 Agentic 任务
  • 对比基线:传统的单路径 disaggregated serving 系统

主要结果

1. 离线推理性能

  • 吞吐量提升:最高 1.87×
  • 延迟降低:端到端延迟显著减少
  • 存储带宽利用率:从 80-90% 降低到 40-50%(说明瓶颈被解除)

2. 在线服务性能

  • 吞吐量提升:平均 1.96×
  • SLO 满足率:保持 99.9% 以上
  • 并发能力:支持更多并发 Agent 请求

3. 资源利用率

  • GPU 利用率:提升 30-40%(减少了等待 I/O 的空闲时间)
  • 网络带宽利用:RDMA 网络利用率提升到 60-70%
  • 存储压力:单位时间存储访问次数减少 45%

可扩展性分析

论文还评估了 DualPath 在不同场景下的表现:

  • 长上下文场景(>100K tokens):优势更明显,提升可达 2.5×
  • 高并发场景(>50 并发 Agent):吞吐量提升更显著
  • 混合工作负载:同时处理多种类型的 Agent 任务时,性能更稳定

🎯 技术亮点与创新

1. 问题识别的准确性

论文首次系统性地指出:在 Agentic LLM 场景下,存储带宽而非计算能力成为主要瓶颈。这改变了系统优化的方向。

2. 架构设计的优雅性

DualPath 不需要修改模型本身或推理算法,只需在系统架构层面添加一条新的数据路径,就能获得显著的性能提升。

3. 工程实现的实用性

  • 利用现有的 RDMA 技术,无需专用硬件
  • 可以增量部署到现有系统
  • 对上层应用透明

4. 性能提升的全面性

不仅提升了吞吐量,还同时:

  • 降低了延迟
  • 提高了资源利用率
  • 减轻了存储系统的压力

🤔 深入思考

为什么传统方案没有发现这个问题?

  1. 传统 LLM 应用多为单轮对话:KV-Cache 生命周期短,存储到 GPU 一次性完成
  2. GPU 内存能容纳 KV-Cache:中等长度的对话(<10K tokens)可以全程保留在 GPU
  3. Prefill 占比更高:传统应用中 Prefill 阶段处理的 token 数量多,Decode 相对占比小

Agentic LLM 为何暴露了这个瓶颈?

  1. 多轮迭代:一个 Agent 任务可能迭代 50-100 次
  2. 长上下文累积:每次迭代都在之前的上下文基础上继续
  3. Decode 占比剧增:每次迭代生成的新 token 数量较少(工具调用、代码片段),但需要加载完整历史 KV-Cache

DualPath 的适用场景

最适合的场景:

  • Agent 类应用(如 ReAct、AutoGPT)
  • 代码生成与执行的迭代任务
  • 长对话场景(客服、教学)
  • 批量处理多个 Agent 任务

可能不适合的场景:

  • 单次对话(如翻译、摘要)
  • 超短上下文任务
  • GPU 内存充足的场景

🔮 未来展望

潜在改进方向

  1. 智能预取:基于 Agent 行为模式预测需要的 KV-Cache
  2. 分层存储:结合 GPU HBM、DRAM、SSD 的多层次缓存
  3. 增量传输:只传输变化的部分 KV-Cache
  4. 压缩优化:研究对推理精度影响更小的 KV-Cache 压缩方法

对行业的影响

  1. 重新定义 LLM 系统瓶颈:从"算力瓶颈"到"存储-网络瓶颈"
  2. 硬件设计的启示:未来 AI 芯片可能需要更好的存储-计算协同设计
  3. 云服务架构:云服务提供商需要重新评估存储和网络的配比

开放问题

  1. 成本效益分析:RDMA 网络的成本是否能被性能提升抵消?
  2. 故障处理:双路径架构下如何保证容错性?
  3. 标准化:能否形成 Agentic LLM serving 的标准架构?

📌 总结

DualPath 论文针对 Agentic LLM 这一新兴应用场景,准确识别了存储带宽瓶颈这一核心问题,并提出了优雅的双路径解决方案。通过将 KV-Cache 直接加载到 Decode 引擎并利用 RDMA 进行高效传输,DualPath 实现了:

  • 1.87× 离线推理性能提升
  • 1.96× 在线服务吞吐量提升
  • 更高的资源利用率
  • 无需修改模型或算法

这项工作不仅解决了当下 Agent 应用的实际痛点,也为 LLM serving 系统的未来演进提供了重要思路。随着 AI Agent 成为 LLM 应用的主流形态,类似 DualPath 的系统级优化将变得越来越重要。


📚 参考资料