论文解读:DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference
arXiv ID: 2602.21548
作者:Yongtong Wu 等人(共13位作者)
发表时间:2026年2月
📋 论文概览
随着 AI Agent(智能体)应用的快速发展,大语言模型(LLM)不再仅仅是一次性的对话工具,而是能够进行多轮交互、调用工具、执行代码的智能助手。然而,这种多轮迭代的 Agent 推理模式带来了一个此前被忽视的性能瓶颈:KV-Cache 的存储 I/O 瓶颈。
本文提出的 DualPath 系统通过创新的双路径架构,将离线推理吞吐量提升了 1.87 倍,在线服务吞吐量平均提升 1.96 倍,同时满足服务级别目标(SLO)。
🔍 问题背景
什么是 Agentic LLM?
Agentic LLM(智能体大语言模型)是指能够:
- 进行多轮思考和推理
- 调用外部工具(如搜索引擎、计算器、数据库)
- 生成并执行代码
- 根据反馈迭代优化结果
这种模式下,一个简单的用户请求可能触发数十次甚至上百次的内部迭代。
KV-Cache 是什么?
在 Transformer 架构的 LLM 中,为了避免重复计算,系统会缓存每个 token 的 Key 和 Value 向量(称为 KV-Cache)。在生成每个新 token 时,只需:
- 计算新 token 的 K、V
- 读取之前所有 token 的 KV-Cache
- 进行 Attention 计算
传统方法的问题
GPU 内存限制:
- 现代 LLM 的 KV-Cache 可能占用数十 GB 空间
- 对于长上下文(如百万 token)或批量处理,GPU 内存无法容纳所有 KV-Cache
现有解决方案的不足: 传统的 disaggregated serving 架构会将 KV-Cache 存储在远程存储系统(如 SSD、分布式存储)中。在 Agent 的每次迭代中:
- Prefill 阶段:处理新输入的 prompt,生成 KV-Cache
- Decode 阶段:逐个生成 token,每次都需要从存储中加载完整的 KV-Cache
关键瓶颈: 论文发现,在 Agentic 场景下,Decode 阶段的存储 I/O 带宽成为主要瓶颈,而非传统认为的计算瓶颈。原因是:
- Decode 每生成一个 token 都需要读取完整 KV-Cache
- 多个 Agent 并发时,存储带宽被迅速打满
- GPU 等待 I/O 的时间远超过实际计算时间
💡 DualPath 核心思想
传统架构:单路径模式
[存储系统]
↓ (加载 KV-Cache)
[Prefill 引擎] → 生成新的 KV-Cache → [存储系统]
↓
[Decode 引擎] ← (再次从存储加载 KV-Cache)
在这种模式下:
- KV-Cache 从存储加载到 Prefill 引擎
- Decode 引擎需要再次从存储读取
- 存储带宽被重复访问占满
DualPath:双路径架构
路径 1(传统路径):
[存储系统] → [Prefill 引擎] → 生成新 KV-Cache
路径 2(新增路径):
[存储系统] → [Decode 引擎] → (通过 RDMA) → [Prefill 引擎]
关键创新点:
-
直接加载到 Decode 引擎
- KV-Cache 从存储直接加载到 Decode 引擎
- 避免先加载到 Prefill 再转发的开销
-
利用 RDMA 高速传输
- Decode 引擎通过 RDMA(Remote Direct Memory Access)将 KV-Cache 高效传输到 Prefill 引擎
- RDMA 带宽通常远高于存储带宽
- 绕过 CPU,降低延迟
-
网络负载均衡
- 将原本集中在存储的 I/O 压力分散到网络传输
- 更好地利用数据中心的网络基础设施
🛠️ 技术实现细节
1. KV-Cache 块布局优化
DualPath 采用针对顺序访问优化的存储布局:
- 块级组织:将 KV-Cache 按块(block)组织,每个块包含固定数量的 token
- 顺序访问优化:减少随机寻址,提高存储系统的吞吐量
- 预取机制:在 Decode 开始前预加载部分 KV-Cache
2. 流量隔离机制
双路径架构天然地将不同类型的流量分离:
- 写流量(Prefill 生成新 KV-Cache):从 GPU 到存储
- 读流量(Decode 加载旧 KV-Cache):从存储到 GPU
- 传输流量(Decode 到 Prefill):通过 RDMA
这种隔离避免了流量竞争,提高了整体效率。
3. 独立队列和调度
系统为两条路径维护独立的:
- 请求队列:Prefill 和 Decode 请求分别排队
- 调度策略:根据各自的延迟和吞吐特性优化
- 资源分配:动态调整两条路径的带宽分配
4. 带宽优化技术
- 批处理(Batching):将多个小的 KV-Cache 请求合并
- 压缩:对 KV-Cache 进行轻量级压缩(如量化)
- 流水线:I/O 和计算操作重叠执行
📊 实验评估
实验设置
- 模型:评估了三种不同规模的模型
- 工作负载:真实生产环境中的 Agentic 任务
- 对比基线:传统的单路径 disaggregated serving 系统
主要结果
1. 离线推理性能
- 吞吐量提升:最高 1.87×
- 延迟降低:端到端延迟显著减少
- 存储带宽利用率:从 80-90% 降低到 40-50%(说明瓶颈被解除)
2. 在线服务性能
- 吞吐量提升:平均 1.96×
- SLO 满足率:保持 99.9% 以上
- 并发能力:支持更多并发 Agent 请求
3. 资源利用率
- GPU 利用率:提升 30-40%(减少了等待 I/O 的空闲时间)
- 网络带宽利用:RDMA 网络利用率提升到 60-70%
- 存储压力:单位时间存储访问次数减少 45%
可扩展性分析
论文还评估了 DualPath 在不同场景下的表现:
- 长上下文场景(>100K tokens):优势更明显,提升可达 2.5×
- 高并发场景(>50 并发 Agent):吞吐量提升更显著
- 混合工作负载:同时处理多种类型的 Agent 任务时,性能更稳定
🎯 技术亮点与创新
1. 问题识别的准确性
论文首次系统性地指出:在 Agentic LLM 场景下,存储带宽而非计算能力成为主要瓶颈。这改变了系统优化的方向。
2. 架构设计的优雅性
DualPath 不需要修改模型本身或推理算法,只需在系统架构层面添加一条新的数据路径,就能获得显著的性能提升。
3. 工程实现的实用性
- 利用现有的 RDMA 技术,无需专用硬件
- 可以增量部署到现有系统
- 对上层应用透明
4. 性能提升的全面性
不仅提升了吞吐量,还同时:
- 降低了延迟
- 提高了资源利用率
- 减轻了存储系统的压力
🤔 深入思考
为什么传统方案没有发现这个问题?
- 传统 LLM 应用多为单轮对话:KV-Cache 生命周期短,存储到 GPU 一次性完成
- GPU 内存能容纳 KV-Cache:中等长度的对话(<10K tokens)可以全程保留在 GPU
- Prefill 占比更高:传统应用中 Prefill 阶段处理的 token 数量多,Decode 相对占比小
Agentic LLM 为何暴露了这个瓶颈?
- 多轮迭代:一个 Agent 任务可能迭代 50-100 次
- 长上下文累积:每次迭代都在之前的上下文基础上继续
- Decode 占比剧增:每次迭代生成的新 token 数量较少(工具调用、代码片段),但需要加载完整历史 KV-Cache
DualPath 的适用场景
最适合的场景:
- Agent 类应用(如 ReAct、AutoGPT)
- 代码生成与执行的迭代任务
- 长对话场景(客服、教学)
- 批量处理多个 Agent 任务
可能不适合的场景:
- 单次对话(如翻译、摘要)
- 超短上下文任务
- GPU 内存充足的场景
🔮 未来展望
潜在改进方向
- 智能预取:基于 Agent 行为模式预测需要的 KV-Cache
- 分层存储:结合 GPU HBM、DRAM、SSD 的多层次缓存
- 增量传输:只传输变化的部分 KV-Cache
- 压缩优化:研究对推理精度影响更小的 KV-Cache 压缩方法
对行业的影响
- 重新定义 LLM 系统瓶颈:从"算力瓶颈"到"存储-网络瓶颈"
- 硬件设计的启示:未来 AI 芯片可能需要更好的存储-计算协同设计
- 云服务架构:云服务提供商需要重新评估存储和网络的配比
开放问题
- 成本效益分析:RDMA 网络的成本是否能被性能提升抵消?
- 故障处理:双路径架构下如何保证容错性?
- 标准化:能否形成 Agentic LLM serving 的标准架构?
📌 总结
DualPath 论文针对 Agentic LLM 这一新兴应用场景,准确识别了存储带宽瓶颈这一核心问题,并提出了优雅的双路径解决方案。通过将 KV-Cache 直接加载到 Decode 引擎并利用 RDMA 进行高效传输,DualPath 实现了:
- ✅ 1.87× 离线推理性能提升
- ✅ 1.96× 在线服务吞吐量提升
- ✅ 更高的资源利用率
- ✅ 无需修改模型或算法
这项工作不仅解决了当下 Agent 应用的实际痛点,也为 LLM serving 系统的未来演进提供了重要思路。随着 AI Agent 成为 LLM 应用的主流形态,类似 DualPath 的系统级优化将变得越来越重要。
📚 参考资料
- 论文链接:arxiv.org/abs/2602.21…
- DOI:doi.org/10.48550/ar…
- 分类:Distributed, Parallel, and Cluster Computing (cs.DC)