LLM-EMPOWERED KNOWLEDGE GRAPH CONSTRUC-TION: A SURVEY
LLM赋能的知识图谱构建研究综述:主要内容总结
本文系统性地综述了大语言模型(LLM)如何变革知识图谱(KG)构建的各个阶段,从传统方法到新兴的LLM驱动范式。
一、引言:范式转变
知识图谱长期以来作为结构化知识表示和推理的基础设施。传统KG构建面临三大挑战:可扩展性与数据稀疏性、专家依赖性与刚性、流水线碎片化。LLM通过生成式知识建模、语义统一和指令驱动编排三大机制,正在将KG构建从规则驱动、基于流水线的系统转向LLM驱动的统一自适应框架。
二、传统KG构建方法回顾
2.1 传统三阶段流水线
- 本体工程:依赖专家手动构建,强调概念严谨性和逻辑一致性但缺乏灵活性
- 知识抽取:从基于规则的方法演进到深度学习模型,但仍受数据稀缺和泛化能力限制
- 知识融合:基于相似性度量和表示学习,但面临语义异质性和动态更新挑战
三、LLM增强的本体构建
3.1 自上而下范式:LLM作为本体助手
- 基于能力问题的方法:如Ontogenia框架使用元认知提示实现自我反思和结构校正
- 基于自然语言的方法:直接从非结构化文本诱导语义模式,如NeOn-GPT实现端到端工作流
3.2 自下而上范式:为LLM构建KG
- 数据到模式过程:如GraphRAG通过聚类和泛化从实例级图抽象出本体概念
- 动态模式演化:如AdaKGC支持新模式关系融入而无需重新训练
- 可部署知识系统:如AutoSchemaKG支持企业级KG的实时生成和演化
四、LLM驱动的知识抽取
4.1 基于模式的方法
- 静态模式驱动:使用预定义本体作为语义主干,确保精度但灵活性有限
- 动态自适应模式:模式作为提取过程的动态演化组件,实现符号结构与数据驱动灵活性的桥梁
4.2 无模式方法
- 结构化生成提取:通过思维链提示和指令微调内部化关系规律
- 开放信息抽取:如EDC框架通过少样本提示生成原始开放知识图
五、LLM赋能的知识融合
5.1 模式级融合
从本体驱动的一致性到数据驱动的统一,再到LLM驱动的规范化,实现语义精确的自动化模式对齐。
5.2 实例级融合
从启发式聚类发展到结构化推理框架,如LLM-Align将对齐重构为上下文推理任务,结合图和检索线索实现零样本消歧。
5.3 混合框架
如KARMA多智能体设计统一模式对齐和实例级融合,标志着向集成式自适应生成融合系统的转变。
六、未来研究方向
6.1 基于KG的LLM推理
将结构化KG集成到LLM推理机制中,增强逻辑一致性和可解释性,形成知识构建与推理的自我改进良性循环。
6.2 智能体系统的动态知识记忆
将KG作为动态记忆基质,如Zep使用时态KG管理事实有效性,支持时间感知推理和更新。
6.3 多模态KG构建
整合文本、图像、音频等多模态到统一结构化表示中,如VaLiK框架实现实体-图像链接而无需人工标注。
6.4 KG在LLM应用中的新角色
超越RAG,作为认知中间层为查询、规划和决策提供结构化支架,实现更可解释的生成。
七、结论
LLM正在将KG构建从基于规则的模块化流水线转变为统一、自适应和生成式框架。三个关键趋势包括:从静态模式到动态归纳、从流水线模块化到生成式统一、从符号刚性到语义适应性。尽管进展显著,在可扩展性、可靠性和持续适应性方面仍存在挑战,未来的提示设计、多模态集成和知识驱动推理进展将是实现自主可解释知识中心AI系统的关键。