让大模型指哪打哪的Multi-Agent路由新范式

55 阅读2分钟

让大模型指哪打哪的Multi-Agent路由新范式

随着Model Context Protocol(MCP)生态的兴起,一个Assistant背后可能挂着数百个工具/子Agent

  • 把全部工具描述塞进Prompt?→ 4 600+ tokens起步,贵到肉痛。
  • 先选Agent再选工具?→ 粗粒度描述经常把“隐藏的宝藏工具”埋没。
  • 只拿单工具?→ 多步任务需要的一组工具被活生生拆散。 【AI大模型教程】

作者用一张图点破痛点:

图1:传统“仅Agent”检索(左)vs. Tool-to-Agent统一检索(右)

  1. 核心思想:把“工具”和“Agent”拉进同一个向量空间

Tool-to-Agent Retrieval(T2A) = 统一向量索引 + 元数据跳转

  1. 建一张二分图:Agent ↔ 拥有的工具
  2. 同一套编码器把Agent描述 & 工具描述都embed进去
  3. 检索时先拿Top-N(工具+Agent),再通过owner(·)映射回唯一Agent集合
  4. 最终返回Top-K Agent,即可单步完成“选工具 or 选Agent”决策

算法伪代码一览:

Algorithm 1:Combined Tool–Agent Top-K Retrieval

  1. 实验设计:8个编码器 × 95条真实任务 × 527个工具

数据集:LiveMCPBench

  • 70个MCP Servers,527 tools,95条多轮用户Query
  • 每条Query人工标注2.68步2.82 tools1.40 Agents

比较基线:

  • BM25
  • Q.Retrieval(dense)
  • ScaleMCP(2025 SOTA)
  • MCPZero(2025 SOTA)

评估指标:Recall@K / mAP@K / nDCG@K,K∈{1,5,10}

  1. 结果速览:指标全面提升,最高+28%

Table 1:LiveMCPBench主指标

再看8种embedding的稳定性:

Table 2:逐模型对比(Recall@5)

  • Amazon Titan v2 提升最猛:0.66 → 0.85(+28%)
  • 即使是轻量All-MiniLM-L6也+13%,说明改进来自框架而非大模型
  1. 消融洞察:工具级信号到底带来了什么?

  • 在Top-5返回里,**39%**直接命中Agent描述,**34%**是通过工具→Agent映射召回
    → 证明“工具细节”确实补足了Agent摘要遗漏的语义
  • Step-wise Querying(先分解再逐步检索)比Direct Querying平均再+4–6 pts Recall
    → 复杂任务拆步检索依旧有效
https://arxiv.org/pdf/2511.01854Tool-to-Agent Retrieval: Bridging Tools and Agents for Scalable LLM Multi-Agent Systems