LLM arxiv每日论文总结

75 阅读4分钟

TAdaRAG: Task Adaptive Retrieval-Augmented Generation via On-the-Fly Knowledge Graph Construction

作者:Jie Zhang, Bo Tang, Wanzi Shao, Wenqiang Wei, Jihao Zhao, Jianqing Zhu, Zhiyu li, Wen Xi, Zehao Lin, Feiyu Xiong, Yanchao Tan

链接arxiv.org/abs/2511.12…

核心问题:传统 RAG 方法将外部知识截断为小块导致信息丢失,产生响应幻觉和推理链断裂,且检索的非结构化知识引入无关细节阻碍准确推理

主要方法:提出任务自适应 RAG 框架,通过意图驱动路由机制到领域特定提取模板,结合监督微调和基于强化学习的隐式提取机制,实现简洁、连贯、非冗余的知识集成

关键结果:在六个公共基准和真实业务基准 (NowNewsQA) 上评估,在三个骨干模型上超越现有方法,展现强大的泛化能力和实际有效性

研究意义:为 RAG 提供了动态知识图谱构建的新范式,显著提升了多领域和长文本任务的处理能力

SGuard-v1: Safety Guardrail for Large Language Models

作者:JoonHo Lee, HyeonMin Cho, Jaewoong Yun, Hyunjae Lee, JunKyu Lee, Juree Seok

链接arxiv.org/abs/2511.12…

核心问题:LLM 输出与人类安全偏好存在不对齐问题,需要轻量级的安全防护机制来检测有害内容和筛选对抗性提示

主要方法:构建包含两个专门模型的轻量级安全防护系统:ContentFilter 识别 MLCommons 危害分类中的安全风险,JailbreakFilter 通过精心设计的课程学习覆盖 60 种主要攻击类型

关键结果:基于 2B 参数的 Granite-3.3-2B-Instruct 模型,支持 12 种语言,在公共和专有安全基准上达到最先进的安全性能

研究意义:提供了轻量级、可部署的 LLM 安全解决方案,通过多类安全预测和置信度分数提高下游使用的可解释性

ARCHE: A Novel Task to Evaluate LLMs on Latent Reasoning Chain Extraction

作者:Pengze Li, Jiaqi Liu, Junchi Yu, Lihao Liu, Mingyu Ding, Wanli Ouyang, Shixiang Tang, Xi Chen

链接arxiv.org/abs/2511.12…

核心问题:LLM 虽然能通过思维链提示产生推理式内容,但这些输出通常是非结构化和非正式的,难以判断模型是否真正理解科学推理的基本范式

主要方法:引入潜在推理链提取任务,要求模型将复杂推理论证分解为标准推理范式的组合,形成推理逻辑树 (RLT),将所有推理步骤明确分类为 Peirce 的三种基本推理模式

关键结果:在 10 个领先 LLM 上评估发现模型在 REA 和 EC 之间存在权衡,目前尚无模型能够提取完整且标准的推理链

研究意义:揭示了当前推理模型能力与科学论证严谨性要求之间的显著差距,为 LLM 推理能力评估提供了新框架

One Request, Multiple Experts: LLM Orchestrates Domain Specific Models via Adaptive Task Routing

作者:Xu Yang, Chenhui Lin, Haotian Liu, Qi Wang, Yue Yang, Wenchuan Wu

链接arxiv.org/abs/2511.12…

核心问题:有源配电网运营演变为复杂的多场景、多目标问题,工程师需要掌握、集成和协调异构领域特定模型,存在较大开销

主要方法:提出 ADN-Agent 架构,利用通用 LLM 协调多个领域特定模型,实现自适应意图识别、任务分解和模型调用,设计统一灵活的通信机制接口

关键结果:综合比较和消融实验验证了方法的有效性,ADN-Agent 架构在 LLM 应用范式中表现优异

研究意义:为智能电网运营提供了 LLM 协调领域模型的创新解决方案,显著提升了问题解决能力和系统效率

Assessing LLMs for Serendipity Discovery in Knowledge Graphs: A Case for Drug Repurposing

作者:Mengying Wang, Chenhui Ma, Ao Jiao, Tuo Liang, Pengjun Lu, Shrinidhi Hegde, Yu Yin, Evren Gurkan-Cavusoglu, Yinghui Wu

链接arxiv.org/abs/2511.12…

核心问题:现有 KGQA 系统通常优化返回高度相关但可预测的答案,缺乏利用 LLM 发现意外和新颖 ("serendipitious") 答案的能力

主要方法:正式定义 serendipity-aware KGQA 任务,提出 SerenQA 框架评估 LLM 在科学 KGQA 任务中发现意外洞察的能力,基于相关性、新颖性和惊喜度构建严谨的 serendipity 度量

关键结果:实验表明最先进的 LLM 在检索方面表现良好,但在识别真正令人惊讶和有价值的发现方面仍然困难