26 EACL KG-CRAFT Knowledge Graph-based Contrastive Reasoning with LLMs(!)

0 阅读2分钟

Key idea

  1. 基于claim 和关联report构造知识图谱(KG);
  2. 基于KG结构构造上下文相关的对比问题
  3. 证据报告蒸馏与总结
  4. LLM 评估 (LIAR-RAW and RAWFC)

动机

  1. 传统方法缺乏大型语言模型(LLMs)后续所展现的可扩展性与适应性;且融合外部知识的现有方法缺乏结构化的推理机制\rightarrow 筛选对比的实体
  2. 对比方法可以增强模型可解释性与决策 \rightarrow 对比解释与人类推理更接近(Miller,2019)

However, generating meaningful contrasts from unstructured text alone is a non-trivial challenge.

提出方法 (KG-CRAFT):

  • Knowledge Graph-based Contrastive Reasoning

image.png

Knowledge Graph Extraction

  • 从claim和reports抽取实体与关系构建KG(通过phased few-shot prompting)

Contrastive Reasoning

  1. 设计对比性问题,比对事实 TclaimT_{claim}TTclaimT-T_{claim}
  2. 使用RCR_C来回答
  3. 将QA对总结成自洽的段落
  • 对比性问题构建、
  1. 筛选实体类别,构造问题,初始化查询
  2. 基于上述迭代构建,形成QrankedQ_{ranked}
  3. 最大相关,最小冗余 设计
  • 对比性问题的回答生成 使用claim相关的报告来回答(K个),旨在推理过程中,利用生成答案中的对比元素强调支持声明判断的关键证据。

  • 答案总结(简明扼要、基于证据的总结) 使用 LLM 生成一个简洁的段落,该段落关联所有对比问答对。

Claim的真实性验证

  • 输入:original claim and the produced summary

实验数据集

  • LIAR-RAW
  • RAWFC
  • Implementation Details: We extracted the KGs (Section 3.1) of both datasets utilising Claude 3 Haiku. Further, KG-CRAFT is instantiated and evaluated (Section 4.2) using Claude 3.5 Sonnet (KG-CRAFTC3.5), Claude 3.7 Sonnet (KG-CRAFTC3.7), and Llama 3.3 70B (KG-CRAFTL3.3)

评估指标(Weighted / Macro)

  • 改进的 Weighted AlignScore (Zha et al., 2023).
  • 改进的 Weighted RQUGE

image.png

image.png

实验结果

image.png

参考文献

  1. Umair Qudus, et al. 2025. Fact checking knowledge graphs – a survey.
  2. Yuheng Zha, et al. 2023. AlignScore: Evaluating factual consistency with a unified alignment function.