DualPath: 突破 AI Agent 推理中的存储带宽瓶颈📋 论文概览随着 AI Agent（智能体）应用的快

论文解读：DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference

arXiv ID: 2602.21548

作者：Yongtong Wu 等人（共13位作者）

发表时间：2026年2月

arxiv.org/abs/2602.21…

📋 论文概览

随着 AI Agent（智能体）应用的快速发展，大语言模型（LLM）不再仅仅是一次性的对话工具，而是能够进行多轮交互、调用工具、执行代码的智能助手。然而，这种多轮迭代的 Agent 推理模式带来了一个此前被忽视的性能瓶颈：KV-Cache 的存储 I/O 瓶颈。

本文提出的 DualPath 系统通过创新的双路径架构，将离线推理吞吐量提升了 1.87 倍，在线服务吞吐量平均提升 1.96 倍，同时满足服务级别目标（SLO）。

🔍 问题背景

什么是 Agentic LLM？

Agentic LLM（智能体大语言模型）是指能够：

进行多轮思考和推理
调用外部工具（如搜索引擎、计算器、数据库）
生成并执行代码
根据反馈迭代优化结果

这种模式下，一个简单的用户请求可能触发数十次甚至上百次的内部迭代。

KV-Cache 是什么？

在 Transformer 架构的 LLM 中，为了避免重复计算，系统会缓存每个 token 的 Key 和 Value 向量（称为 KV-Cache）。在生成每个新 token 时，只需：

计算新 token 的 K、V
读取之前所有 token 的 KV-Cache
进行 Attention 计算

传统方法的问题

GPU 内存限制：

现代 LLM 的 KV-Cache 可能占用数十 GB 空间
对于长上下文（如百万 token）或批量处理，GPU 内存无法容纳所有 KV-Cache

现有解决方案的不足： 传统的 disaggregated serving 架构会将 KV-Cache 存储在远程存储系统（如 SSD、分布式存储）中。在 Agent 的每次迭代中：

Prefill 阶段：处理新输入的 prompt，生成 KV-Cache
Decode 阶段：逐个生成 token，每次都需要从存储中加载完整的 KV-Cache

关键瓶颈： 论文发现，在 Agentic 场景下，Decode 阶段的存储 I/O 带宽成为主要瓶颈，而非传统认为的计算瓶颈。原因是：

Decode 每生成一个 token 都需要读取完整 KV-Cache
多个 Agent 并发时，存储带宽被迅速打满
GPU 等待 I/O 的时间远超过实际计算时间

💡 DualPath 核心思想

传统架构：单路径模式

[存储系统]
    ↓ (加载 KV-Cache)
[Prefill 引擎] → 生成新的 KV-Cache → [存储系统]
    ↓
[Decode 引擎] ← (再次从存储加载 KV-Cache)

在这种模式下：

KV-Cache 从存储加载到 Prefill 引擎
Decode 引擎需要再次从存储读取
存储带宽被重复访问占满

DualPath：双路径架构

路径 1（传统路径）：
[存储系统] → [Prefill 引擎] → 生成新 KV-Cache

路径 2（新增路径）：
[存储系统] → [Decode 引擎] → (通过 RDMA) → [Prefill 引擎]

关键创新点：

直接加载到 Decode 引擎
- KV-Cache 从存储直接加载到 Decode 引擎
- 避免先加载到 Prefill 再转发的开销
利用 RDMA 高速传输
- Decode 引擎通过 RDMA（Remote Direct Memory Access）将 KV-Cache 高效传输到 Prefill 引擎
- RDMA 带宽通常远高于存储带宽
- 绕过 CPU，降低延迟
网络负载均衡
- 将原本集中在存储的 I/O 压力分散到网络传输
- 更好地利用数据中心的网络基础设施

🛠️ 技术实现细节

1. KV-Cache 块布局优化

DualPath 采用针对顺序访问优化的存储布局：

块级组织：将 KV-Cache 按块（block）组织，每个块包含固定数量的 token
顺序访问优化：减少随机寻址，提高存储系统的吞吐量
预取机制：在 Decode 开始前预加载部分 KV-Cache

2. 流量隔离机制

双路径架构天然地将不同类型的流量分离：

写流量（Prefill 生成新 KV-Cache）：从 GPU 到存储
读流量（Decode 加载旧 KV-Cache）：从存储到 GPU
传输流量（Decode 到 Prefill）：通过 RDMA

这种隔离避免了流量竞争，提高了整体效率。

3. 独立队列和调度

系统为两条路径维护独立的：

请求队列：Prefill 和 Decode 请求分别排队
调度策略：根据各自的延迟和吞吐特性优化
资源分配：动态调整两条路径的带宽分配

4. 带宽优化技术

批处理（Batching）：将多个小的 KV-Cache 请求合并
压缩：对 KV-Cache 进行轻量级压缩（如量化）
流水线：I/O 和计算操作重叠执行

📊 实验评估

实验设置

模型：评估了三种不同规模的模型
工作负载：真实生产环境中的 Agentic 任务
对比基线：传统的单路径 disaggregated serving 系统

主要结果

1. 离线推理性能

吞吐量提升：最高 1.87×
延迟降低：端到端延迟显著减少
存储带宽利用率：从 80-90% 降低到 40-50%（说明瓶颈被解除）

2. 在线服务性能

吞吐量提升：平均 1.96×
SLO 满足率：保持 99.9% 以上
并发能力：支持更多并发 Agent 请求

3. 资源利用率

GPU 利用率：提升 30-40%（减少了等待 I/O 的空闲时间）
网络带宽利用：RDMA 网络利用率提升到 60-70%
存储压力：单位时间存储访问次数减少 45%

可扩展性分析

论文还评估了 DualPath 在不同场景下的表现：

长上下文场景（>100K tokens）：优势更明显，提升可达 2.5×
高并发场景（>50 并发 Agent）：吞吐量提升更显著
混合工作负载：同时处理多种类型的 Agent 任务时，性能更稳定

🎯 技术亮点与创新

1. 问题识别的准确性

论文首次系统性地指出：在 Agentic LLM 场景下，存储带宽而非计算能力成为主要瓶颈。这改变了系统优化的方向。

2. 架构设计的优雅性

DualPath 不需要修改模型本身或推理算法，只需在系统架构层面添加一条新的数据路径，就能获得显著的性能提升。

3. 工程实现的实用性

利用现有的 RDMA 技术，无需专用硬件
可以增量部署到现有系统
对上层应用透明

4. 性能提升的全面性

不仅提升了吞吐量，还同时：

降低了延迟
提高了资源利用率
减轻了存储系统的压力

🤔 深入思考

为什么传统方案没有发现这个问题？

传统 LLM 应用多为单轮对话：KV-Cache 生命周期短，存储到 GPU 一次性完成
GPU 内存能容纳 KV-Cache：中等长度的对话（<10K tokens）可以全程保留在 GPU
Prefill 占比更高：传统应用中 Prefill 阶段处理的 token 数量多，Decode 相对占比小

Agentic LLM 为何暴露了这个瓶颈？

多轮迭代：一个 Agent 任务可能迭代 50-100 次
长上下文累积：每次迭代都在之前的上下文基础上继续
Decode 占比剧增：每次迭代生成的新 token 数量较少（工具调用、代码片段），但需要加载完整历史 KV-Cache

DualPath 的适用场景

最适合的场景：

Agent 类应用（如 ReAct、AutoGPT）
代码生成与执行的迭代任务
长对话场景（客服、教学）
批量处理多个 Agent 任务

可能不适合的场景：

单次对话（如翻译、摘要）
超短上下文任务
GPU 内存充足的场景

🔮 未来展望

潜在改进方向

智能预取：基于 Agent 行为模式预测需要的 KV-Cache
分层存储：结合 GPU HBM、DRAM、SSD 的多层次缓存
增量传输：只传输变化的部分 KV-Cache
压缩优化：研究对推理精度影响更小的 KV-Cache 压缩方法

对行业的影响

重新定义 LLM 系统瓶颈：从"算力瓶颈"到"存储-网络瓶颈"
硬件设计的启示：未来 AI 芯片可能需要更好的存储-计算协同设计
云服务架构：云服务提供商需要重新评估存储和网络的配比

开放问题

成本效益分析：RDMA 网络的成本是否能被性能提升抵消？
故障处理：双路径架构下如何保证容错性？
标准化：能否形成 Agentic LLM serving 的标准架构？

📌 总结

DualPath 论文针对 Agentic LLM 这一新兴应用场景，准确识别了存储带宽瓶颈这一核心问题，并提出了优雅的双路径解决方案。通过将 KV-Cache 直接加载到 Decode 引擎并利用 RDMA 进行高效传输，DualPath 实现了：

✅ 1.87× 离线推理性能提升
✅ 1.96× 在线服务吞吐量提升
✅ 更高的资源利用率
✅ 无需修改模型或算法

这项工作不仅解决了当下 Agent 应用的实际痛点，也为 LLM serving 系统的未来演进提供了重要思路。随着 AI Agent 成为 LLM 应用的主流形态，类似 DualPath 的系统级优化将变得越来越重要。

📚 参考资料

论文链接：arxiv.org/abs/2602.21…
DOI：doi.org/10.48550/ar…
分类：Distributed, Parallel, and Cluster Computing (cs.DC)