论文登顶 ICDE 2026!平凯星辰与华科大联合提出 EC-RAG:让边侧小模型协同云端大模型,实现高效 RAG

0 阅读4分钟

近日,平凯星辰与华中科技大学合作的最新研究成果《EC-RAG: Towards Efficient Edge-Cloud Retrieval-Augmented Generation Systems》正式被 ICDE 2026 大会收录。该研究针对边缘计算环境下大模型部署的痛点,提出了一种全新的云边协同 RAG 框架,在提升回答质量的同时,显著降低云端 API 调用成本,并保持较低平均延迟。

ICDE 是数据库领域三大顶级国际会议之一(与 SIGMOD、VLDB 齐名),入选论文代表了数据库及其应用领域的最高研究水平。

研究背景:边缘侧 RAG 的“既要又要”

随着生成式 AI 的普及,检索增强生成(RAG)已成为解决大模型(LLM)幻觉、增强专业领域知识的关键技术。然而,在实际落地中,开发者往往面临两难境地:

  1. **云端 LLM 昂贵:**完全依赖云端 LLM API 虽然能够保证生成质量,但每次调用都会产生额外成本,且随着查询量和检索上下文长度增加,API 费用会快速累积。

  2. 边缘侧 SLM 能力有限: 将小语言模型(SLM)部署在资源受限的边缘服务器上虽响应快、更安全,但受限于模型参数量,其处理复杂查询时的生成质量往往不尽如人意。

如何在有限的资源下,实现准确、高效、低成本的 RAG 应用?

核心突破:EC-RAG 协同架构

为了打破这一瓶颈,平凯星辰与华中科技大学联合团队提出了 EC-RAG。这是一种创新的云边协同 RAG 系统,其核心理念是:让信息需求较少、复杂度较低的查询在边缘侧高效处理,让复杂度较高或需要整合更多上下文的查询按需交由云端大模型生成。

图 4:EC-RAG 架构

  1. 动态块剪枝(Dynamic Chunk Pruning) 传统 RAG 通常在检索与重排序后,把固定数量的 top-k 片段(Chunks)直接“塞给”模型,但这种方式难以适配不同查询对信息量的差异化需求。EC-RAG 通过动态剪枝技术,动态保留有助于生成答案的片段。这不仅减轻了生成阶段的推理计算负担,还避免了噪声干扰。

  2. 自适应查询路由(Adaptive Query Routing) 这是 EC-RAG 的“大脑”。系统会根据查询复杂度和实际需要处理的上下文规模,自动判断:

  • 如果边缘侧 SLM 足以应对,则直接生成答案;

  • 如果任务过难,则按需通过 API 请求云端大模型。 通过这种方式,系统在准确率、延迟和 API 成本之间达到了完美的平衡。

  1. 边缘侧推理性能优化 针对边缘侧硬件环境,团队还探索了多项系统级优化手段,进一步优化边缘侧执行效率,确保端到端的极速响应。

实验数据:性能与成本的双赢

研究团队在四个权威数据集上进行了广泛评估,结果显示 EC-RAG 表现惊艳:

  • 质量飞跃: 相比纯边缘侧 SLM 方案,EC-RAG 的 F1 分数提升高达 30%,极大弥补了小模型的短板。

  • 成本极低: 相比纯云端 LLM 方案,EC-RAG 成功节省了 90% 的 API 调用成本。

  • 低延迟表现:在提升质量并降低云端成本的同时,保持较低的平均响应延迟。

这意味着,EC-RAG 能够以接近“边缘侧方案”的成本和速度,提供接近“云端大模型”的智能水平。

图 9:不同方法在四个数据集上的平均 F1 分数、延迟和总 API 成本对比

图 10:在四个数据集上,不同方法路由到边缘端(Edge)和云端(Cloud)的查询数量分布

此次合作论文入选 ICDE 2026,不仅证明了平凯星辰在 AI 与数据库交叉领域的科研深度,也为 RAG 技术在工业界的高效落地提供了新的范式。

未来,平凯星辰将继续深化与高校的产学研合作,推动云边协同技术在分布式数据库及 AI 基础架构中的应用,为用户带来更智能、更高效的数据处理体验。