“拆墙”现场:阿里云 Tair KVCache 携手 SGLang、千问与 NVIDIA 共话大模型推理优化

13 阅读3分钟

3月7日,阿里云数据库 Tair 携手 SGLang、千问 App 和 NVIDIA 开发者社区,聚焦于“大模型推理 × 数据库”前沿技术的 Meetup 于上海圆满举行。

现场:物理“拆墙”引发极客共鸣

走进活动现场,最吸睛的是一堵被打破的显存墙装置,开发者们纷纷从破洞中钻出拍照打卡。这一设计也隐喻了本次活动的核心技术命题:利用外置存储打破 GPU 物理显存的限制。

定调:李飞飞谈 AI 基础设施的战略跃迁

“阿里云数据库 Tair 正在实现从互联网时代面向传统交易型负载到 AI 时代面向推理型负载的战略延展。”

阿里云智能集团资深副总裁、数据库产品事业部负责人李飞飞指出,在大模型发展如火如荼的今天,KV Cache 的管理与加速已成为 TTFT 优化的关键。Tair 将多年积累的缓存管理能力应用于大模型推理中的 KV Cache 存储与加速场景,通过与引擎框架、底层硬件、上层应用的深度整合,构建高效的“存算协同”体系。

硬核:从硬件层、管理层、推理层到应用层的全链路打通

本次 Meetup 核心围绕解决 LLM 推理中的“显存墙”难题,全景展示了四层链路的协同方案:

硬件与底座层:NVIDIA 团队分享了针对 Qwen3.5 的推理优化实践,包括 SGLang 功能特性、利用 FlashInfer 算子和 NVFP4 的性能优化;针对分离式推理服务硬件选型难、试错工作量大的痛点,阿里云 Tair HiSim(Cache 仿真器) 联合 NVIDIA Dynamo AIConfigurator,低成本实现了高保真推理配置寻优的压测模拟。

资源管理层:

阿里云 Tair KVCM 与 Mooncake 深度融合,构建了基于 RDMA 的分布式内存池。这一架构实现了计算、控制与存储的解耦,不仅支持 PB 级缓存的全局统一管理与多租户隔离,更通过有效协同“机头”与“远端”存储(如 3FS),为 Agent 时代的长上下文需求提供了“无限延伸”的底座。

推理框架层:

SGLang 团队展示了最新路线图。针对 Qwen3.5 等混合架构模型,SGLang 创新推出了动态弹性显存池与 MambaRadixCache 机制,完美解决 SSM 与 KV Cache 的动态平衡。此外,由千问团队研发的 ECHO 弹性投机采样机制,通过算力预算调度,在不增加延迟的前提下大幅提升了高并发场景的加速收益。

业务应用层:

千问 App 团队分享了作为顶级 C 端应用的实战经验。通过 PD 分离架构、多图输入流式处理成功在多轮对话与复杂 Agent 场景下大幅降低 TTFT。

compress_2.gif

反响:来自 800+ 开发者的技术热爱

原定 200 人规模的技术沙龙,最终吸引了超过 800 名开发者报名。活动当天,汇聚了来自各行业头部企业及知名高校的开发者精英,在密集的干货分享中,听众与嘉宾展开了高质量的互动,共同探讨大模型推理全链路打通的实战逻辑。

compress_3.gif

compress_3.gif

写在最后:关于 Tair KVCache

本次活动的火爆,折射出行业对推理性价比的渴求。阿里云数据库 Tair 正在从传统的缓存组件进化为大模型推理架构中的核心缓存基础设施。

目前,Tair KVCache 积极和SGLang 社区共建 HiCache 特性用于管理多级分层缓存。随着“存算分离”架构在 Novita AI 等真实生产场景中取得显著提升,以 Tair KVCache 为核心的方案,正成为大厂重构 AI 基础设施的首选。