在构建 AI 智能体(AI Agent)时,我们不仅在与算法赛跑,更在与延迟(Latency)赛跑。
在“上半场”,我们依靠 SSE(Server-Sent Events,服务器发送事件) 成功拉近了 AI 生成内容与用户感知之间的距离。用户看着文字逐个蹦出,体验到了丝滑的“流式对话”。但随着智能体从简单的“聊天机器人”进化为具备复杂多模态交互能力、高并发处理需求的“数字员工”,SSE 的局限性正变得日益明显。
现在,“下半场”开始了。我们需要一种更现代、更全能的传输协议——WebTransport。
回顾上半场:为什么我们选择了 SSE?
在早期构建智能体流式对话时,SSE 是一个极佳的选择。
1. SSE 的优势(Why it Worked)
- 原生 HTTP 支持: 它是基于 HTTP 协议的,对防火墙友好,无需特殊配置。
- 轻量级: API 及其简单,客户端代码只需几行即可建立单向连接。
- 天生支持流式数据: SSE 协议本身就是为服务器向客户端持续发送文本数据(如:
data: hello)而设计的,天然适合展示大型语言模型(LLM)逐步生成的 token。
2. 在智能体场景下的应用
典型的 SSE 方案下,智能体处理流程如下:
- 客户端发送一条 HTTP POST 请求,附带用户输入。
- 服务器接收请求,启动智能体逻辑(调用 LLM、执行 Tool 等)。
- 服务器通过响应流持续以
data:格式向客户端发送生成的文本。 - 智能体逻辑执行完毕,连接关闭。
这在处理纯文本、低并发、低延时要求的对话时表现优异。
瓶颈显现:当 SSE 遇上更复杂的智能体
随着我们对智能体期望的提高,SSE 的三个致命弱点开始浮出水面:
1. 它是单向的
这是最大的局限。SSE 只能服务器发送数据,客户端接收。如果用户在智能体生成内容时想要打断(Interruption)、更新指令、或者客户端需要实时反馈某些状态,就不得不另外发起一个新的 HTTP 请求。这不仅增加了开销,还使得双工协作(Full Duplex)变得支离破碎。
2. 队头阻塞(Head-of-Line Blocking)
SSE 是基于 TCP 的(通常通过 HTTP/1.1 或多路复用的 HTTP/2 传输)。一旦底层 TCP 连接发生丢包,后续的所有数据(即使它们已经到达客户端的缓冲区)都必须等待该丢失数据包重传成功。这在网络环境不佳时,会导致明显的卡顿和不一致的延迟,这对实时交互是毁灭性的。
3. 多模态与多流传输困难
现代智能体不只是生成文本,它们可能需要同时生成音频流、视频流、或者在侧边栏显示实时图表数据。用同一个 SSE 连接来复用多种不同类型的数据是非常困难且低效的。
迎接下半场:WebTransport 强势登场
WebTransport 是一个基于 QUIC 协议(HTTP/3 的核心)的全新 Web API,旨在为 Web 应用提供极低延迟、灵活且高效的客户端-服务器通信。
它就像是为应对复杂智能体挑战而量身定制的协议。
为什么说 WebTransport 是智能体场景的未来?
1. 彻底解决队头阻塞
WebTransport 运行在 QUIC 上,QUIC 在底层实现了流级别的多路复用,而不是连接级别的。
- 这意味着:即使音频流的数据包丢失,文本流的 token 依然可以流畅送达,互不干扰。这对于多模态智能体来说至关重要。
2. 原生支持真正的全双工双向通信
WebTransport 提供了真正的双向、低延迟通道:
- 智能体一边生成:服务器可以同时通过可靠流(Stream)发送文本、音频数据。
- 用户一边反馈:客户端可以随时在同一个连接上发送新的控制信令、打断指令、或新的多模态输入(如用户实时上传的图片数据)。
这种实时互动感是 SSE 无法比拟的。
3. 灵活的传输模式(可靠流 vs. 不可靠数据报)
这是 WebTransport 的“撒手锏”。
-
可靠流 (Reliable Streams) :用于必须精准送达的数据,如对话文本、重要的控制指令。
-
不可靠数据报 (Unreliable Datagrams) :用于允许丢包但要求极低延迟的数据。
- 在智能体场景的应用:我们可以用数据报来发送不重要的 UI 状态更新、鼠标指针位置(用于在线协作)、或者音频流中允许略微丢失的样本。这进一步降低了延迟。
4. 更快的连接建立
基于 QUIC 的 0-RTT(Zero Round-Trip Time)握手,使得 WebTransport 连接几乎可以瞬间建立。对于在移动端网络下,需要频繁连接的智能体应用,这一特性带来的体验提升非常显著。
SSE vs. WebTransport:决策指南
在 2026 年的今天,你应该如何选择?
| 特性 | SSE (基于 TCP) | WebTransport (基于 QUIC) | 智能体应用建议 |
|---|---|---|---|
| 通信模式 | 只有 Server -> Client 单向 | 真正的 Full Duplex 双向 | WT,处理更复杂的双工交互和用户打断。 |
| 延迟 | 一般 (受 TCP 队头阻塞影响) | 极低 (无阻塞) | WT,适用于实时响应要求极高的场景。 |
| 多模态数据 | 困难 (需自定义复杂的编码/解码) | 原生支持 (通过多流) | WT,是多模态(文本+音频+视频)的必选。 |
| 传输类型 | 只有可靠流 | 可靠流 + 不可靠数据报 | WT,提供最大化的传输灵活性。 |
| 实现难度 | 简单 | 较复杂 (需后端 QUIC 支持) | SSE 适合纯文本 Demo,WT 适合生产环境级 Agent。 |
总结
SSE 是我们进入实时对话时代的“敲门砖”,它成功地把静态的 HTTP 变成了一个个“流”。然而,WebTransport 的出现,则标志着从“流”向“全双工、低延迟、多模态网络应用”的跨越。
对于构建下一代、真正与用户无缝协作的 AI 智能体来说,WebTransport 已经不仅仅是一个可选项,它正迅速成为一项必不可少的基础设施。现在是时候升级你的网络架构,为用户解锁更流畅、更具交互性的智能体体验了。 更需要注意的是,目前WebTransport还在试验阶段,没有大批量投入使用,但是相信在不久将来,将会进行大面积普及!