Think-on-Graph 3.0多智能体双进化算法实现动态知识图构建，突破轻量级LLM复杂知识推理瓶颈！Think-

Think-on-Graph 3.0多智能体双进化算法实现动态知识图构建，突破轻量级LLM复杂知识推理瓶颈！

摘要

RAG和Graph-RAG已成为增强大语言模型外部知识的重要范式。然而，现有方法面临一个根本性的权衡：图方法本质上依赖于高质量的图结构，但在实践中手动构建的知识图谱扩展成本高昂，而从语料中自动提取的图则受限于LLM提取器的性能，尤其是在使用较小的本地部署模型时。本文提出了Think-on-Graph 3.0(ToG-3)，引入了Multi-Agent Context Evolution and Retrieval（MACER）的新框架，包括Constructor、Retriever、Reflector和Responser Agent，实现迭代的证据检索、答案生成、充分性判断以及关键的查询与子图进化过程。其核心创新在于动态构建并优化一个“Chunk-Triplets-Community”的异构图索引，并首次提出了“Evolving Query”与“Evolving Sub-Graph”的双重进化机制，以实现精准的证据检索。该方法解决了先前Graph-based RAG方法的一个关键缺陷——它们通常一次性构建静态图索引，而无法针对具体查询动态优化图索引。ToG 3.0实现了在推理过程中自适应地构建目标图索引，从而克服了静态图构建的固有缺陷，即便使用轻量级LLM也能实现深度精准推理。大量实验表明，ToG 3.0在深度与广度知识推理基准测试中均优于现有基线，消融实验也验证了MACER框架各组件的有效性。

一、研究动机：传统图增强RAG的两大瓶颈

检索增强生成技术通过引入外部知识，已成为解决LLM知识幻觉和知识滞后问题的标准范式。其中，基于知识图谱的RAG方法因其能捕捉结构化知识而被广泛使用。然而，现有方法面临根本性困境：

瓶颈一：依赖预建知识库，难以泛化

以ToG-1和2为代表的早期方法，严重依赖Freebase、Wikidata等高质量预建知识库。这导致它们在私有化部署、专业领域应用中几乎无用武之地——因为这些领域根本没有现成的高质量知识库可用。

瓶颈二：自动构建图谱质量差，形成性能瓶颈以

GraphRAG、LightRAG为代表的方法尝试从文档自动构建图谱，但其图谱质量完全取决于所用LLM的抽取能力。如图1所示，在资源受限的本地部署场景中，当开发者为了效率和安全而选择本地部署的Qwen2.5-7B/32B等轻量级模型时，会普遍遭遇三大问题：

o三元组抽取不全（比如遗漏关键事实）

o抽取细节不足（比如没有进行指代消解导致信息过于模糊）

oLLM输出解析失败（无法正确格式化输出）

更关键的是，这些方法都采用 **“一次性构建，永久使用”**的静态图谱范式。图谱在索引阶段构建完成后便固定不变，无法根据用户的具体查询进行自适应调整。

图1: Graph-RAG的局限性

瓶颈三：目前Graph-RAG方法局限在深度推理或者广度推理单一领域

目前的Graph-based RAG要么专注解决广度社区的推理问题（比如Graph-RAG, Light-RAG），要么专注解决多跳知识问答问题（比如HippoRAG-2, Fast-GraphRAG），或者需要手动指定推理模式（mode="global" or "local"）来分别处理这两类问题，无法统一、自适应地同时处理这两类问题。**

二、核心方法：让知识图谱在推理中“动态进化”

ToG 3.0的核心思路是：它不再追求构建一个覆盖所有知识的、完美的全局静态图谱，而是转向构建一个能够在推理过程中围绕具体问题动态生长、进化、自适应的子图谱。

图2: ToG 3.0与传统RAG、Graph-RAG和KG-RAG范式对比

这一思路通过三大创新实现：

创新一：“块-三元组-社区”异构图结构

为了支撑上述动态推理过程和同时支持深度推理和广度推理两大类任务，ToG 3.0构建了一个独特的三层异构图，包括三种类型的节点：

● **块节点：**句子级别的原始文本段落，保留最完整的上下文信息。

● **三元组节点：**由LLM从块中抽取的(主语, 谓语, 宾语)结构化事实，是对文本的精细化提炼。

●社区节点：通过Leiden聚类算法生成的实体簇的抽象摘要，提供了高层级的主题视角。这种设计巧妙地融合了非结构化文本的丰富性、结构化知识的精确性以及主题摘要的宏观性，使系统能够根据问题需求，在不同粒度间无缝切换检索。

创新二：MACER机制——多智能体协同的推理“大脑”

MACER是多智能体上下文进化与检索 (Multi-Agent Context Evolution and Retrieval) 的缩写。它不是一个简单的工具，而是一个由四个高度专业化的“智能体”组成的协同系统，如图2所示：

构造智能体（Graph Constructor）：负责异构图谱的构建与动态进化。
检索智能体（Retriever）：从图谱中精准检索多粒度信息。
反思智能体（Reflector）：评估当前证据是否足够回答问题，并决策下一步行动。
响应智能体（Responder）：基于最终收集到的证据，生成忠实、准确的答案。

创新三：双进化机制——迭代精炼的推理“引擎”

这是ToG 3.0的核心灵魂。整个推理过程被形式化为一个马尔可夫决策过程，通过“进化查询”和“进化子图”的交替进行，实现知识的迭代精炼，双演化流程如下：

图3:在异构图索引上进行多智能体双进化上下文检索-响应循环

进化查询：反思智能体分析当前掌握的证据，提出一个更精准、能弥补信息空白的子问题。
**进化子图：**构造器=智能体根据具体的问题查询，对当前子图进行扩展和优化，添加新的相关节点和边。
循环：上述过程循环往复，直到反思智能体判定证据充分（奖励=1）或达到最大迭代次数。最终，响应智能体会基于完整的推理轨迹合成最终答案，确保了答案对进化过程的绝对忠实性。

三、验证：全面领先的实验性能

研究团队在复杂知识推理的两大分支：深度推理和广度推理两大类任务上对ToG 3.0进行了全面评估。

深度推理任务（多跳问答）

表1: 深度推理benchmark上的性能对比

图4: 深度推理Benchmark上的性能对比柱状图

在HotpotQA、2WikiMultihopQA和Musique这三个经典的多跳推理数据集上，ToG 3.0的平均EM和F1分数均位列第一，显著优于GraphRAG、LightRAG等基线方法。

广度推理任务（多领域理解）

图5: 广度推理Benchmark上的胜率对比热力图，红色越深代表该方法对战胜率越高

在涵盖计算机科学、农业、法律等领域的UltraDomain基准测试中，ToG 3.0在综合性、多样性和赋能性三个维度上表现卓越，上图展示了ToG 3.0对比其他方法的综合胜率。比如在法律领域对比传统NaiveRAG的胜率高达88.8%，对比其他4种基线的平均胜率也达到71.9%。

计算成本分析

图索引构建阶段，由于ToG 3.0在初始图构建阶段并不要求图谱大而全，因此初始图中的实体、关系、社区的数量都少于Graph-RAG和Light-RAG，因此ToG 3.0在图索引构建阶段是较为高效的；推理阶段，根据我们的统计，平均20%的样本需要一次的evolving-context过程，32%需要2次，48%需要3次，因此ToG 3.0的推理时间比基线方法长2-3倍，这是其进行多轮迭代推理的必然代价。因此，这种 **“以时间换精度”**的权衡在对答案质量要求较高的场景（如医疗、法律）中比较适用。

表2: 图索引构建的size、耗时，推理阶段的耗时对比

消融实验

消融实验揭示了MACER框架中各组件对深度推理性能的影响。最关键的部分是动态查询演化机制，移除后性能下降最显著（EM平均下降12.6%，F1下降17.9%），这凸显了其在复杂问答，尤其是轻量语言模型应用中的核心作用。相比之下，子图优化模块的移除导致中等程度性能下降，而社区节点对深度推理任务影响最小——说明块状和三元组表示已承载大部分关键信息。此外，基础模型规模分析表明：语言模型的推理能力（如从14B扩展到72B带来16.4%的EM提升）对性能的影响远大于嵌入模型规模的扩大，这为实际部署中的资源分配提供了一些指导。

表3: ToG 3.0的消融实验

5.Case Study

图6展示展示了UltraDomain中计算机科学领域知识图谱的结构，是广度推理的典型范例。该图谱涵盖了计算机科学领域的广泛概念，从基础的数据结构、算法到应用的分布式系统与云服务等，通过多样化的关系类型（如“实现”、“运行于”、“包含”）连接这些概念，并且包含源文本Chunk节点、聚类后的社区节点。例如，要理解Spark与Hadoop、Kafka及多种编程语言之间的关系，就需要整合跨领域的知识，体现了对广泛概念覆盖和交叉领域认知的严格要求。图中丰富的节点类型和多样化的连接关系直观地呈现了这种广度知识的结构化、异构性和复杂性。

图6: ToG 3.0的异构图结构的Neo4J可视化

图7展示了一个关于动态查询与子图进化在多跳推理中应用的案例介绍：面对一个初始知识子图无法回答的复杂问题，系统启动了迭代推理流程：首先，它将原问题分解为一个具体的子查询；随后，构造智能体根据此子查询，通过增补关键的传记事实来动态优化和扩展知识子图；最终，响应智能体利用这个进化后更丰富、更精准的子图，成功输出了正确答案。

图7: ToG 3.0查询-子图双进化的例子

主要局限与未来发展方向

本工作存在三方面主要局限：受限于算力，实验采用的模型规模（最大72B LLM、4B Embedding模型）虽适合中小企业本地部署，但仍有提升空间；其核心的查询进化与子图优化机制导致推理延迟增至基线方法的2-3倍，且需更长的上下文，这使其更适用于精度优先的场景。未来可有通过模型蒸馏、图遍历算法优化等技术缓解这些问题。未来发展方向包括：将MACER框架扩展至编程辅助、金融分析等更复杂的知识密集型任务；推进多模态图推理，构建连接文本与感知的世界模型；借鉴认知科学，探索融合参数化记忆的新架构，实现更高效的知识保持与工具使用能力。