让大模型指哪打哪的Multi-Agent路由新范式
随着Model Context Protocol(MCP)生态的兴起,一个Assistant背后可能挂着数百个工具/子Agent。
- 把全部工具描述塞进Prompt?→ 4 600+ tokens起步,贵到肉痛。
- 先选Agent再选工具?→ 粗粒度描述经常把“隐藏的宝藏工具”埋没。
- 只拿单工具?→ 多步任务需要的一组工具被活生生拆散。 【AI大模型教程】
作者用一张图点破痛点:
图1:传统“仅Agent”检索(左)vs. Tool-to-Agent统一检索(右)
- 核心思想:把“工具”和“Agent”拉进同一个向量空间
Tool-to-Agent Retrieval(T2A) = 统一向量索引 + 元数据跳转
- 建一张二分图:Agent ↔ 拥有的工具
- 用同一套编码器把Agent描述 & 工具描述都embed进去
- 检索时先拿Top-N(工具+Agent),再通过
owner(·)映射回唯一Agent集合 - 最终返回Top-K Agent,即可单步完成“选工具 or 选Agent”决策
算法伪代码一览:
Algorithm 1:Combined Tool–Agent Top-K Retrieval
- 实验设计:8个编码器 × 95条真实任务 × 527个工具
数据集:LiveMCPBench
- 70个MCP Servers,527 tools,95条多轮用户Query
- 每条Query人工标注2.68步、2.82 tools、1.40 Agents
比较基线:
- BM25
- Q.Retrieval(dense)
- ScaleMCP(2025 SOTA)
- MCPZero(2025 SOTA)
评估指标:Recall@K / mAP@K / nDCG@K,K∈{1,5,10}
- 结果速览:指标全面提升,最高+28%
Table 1:LiveMCPBench主指标
再看8种embedding的稳定性:
Table 2:逐模型对比(Recall@5)
- Amazon Titan v2 提升最猛:0.66 → 0.85(+28%)
- 即使是轻量All-MiniLM-L6也+13%,说明改进来自框架而非大模型
- 消融洞察:工具级信号到底带来了什么?
- 在Top-5返回里,**39%**直接命中Agent描述,**34%**是通过工具→Agent映射召回
→ 证明“工具细节”确实补足了Agent摘要遗漏的语义 - Step-wise Querying(先分解再逐步检索)比Direct Querying平均再+4–6 pts Recall
→ 复杂任务拆步检索依旧有效
https://arxiv.org/pdf/2511.01854Tool-to-Agent Retrieval: Bridging Tools and Agents for Scalable LLM Multi-Agent Systems