LLM arxiv每日论文

35 阅读7分钟

MedBayes-Lite: Bayesian Uncertainty Quantification for Safe Clinical Decision Support

论文链接arxiv.org/pdf/2511.16…

核心问题:Transformer-based临床语言模型(LLMs)在模糊医疗案例中易过度自信,缺乏校准的不确定性量化,影响临床决策安全性。

主要方法:提出轻量级贝叶斯增强框架MedBayes-Lite,无需重新训练或修改架构,通过三个组件实现不确定性量化:(1) 贝叶斯嵌入校准(Monte Carlo dropout);(2) 不确定性加权注意力(边际化token可靠性);(3) 置信度引导决策 shaping(基于临床风险最小化)。

关键结果:在MedQA、PubMedQA、MIMIC-III基准上,减少过度自信32%–48%;模拟临床场景中,可预防41%的诊断错误;参数 overhead 低于3%。

研究意义:为医疗AI系统提供可靠的不确定性传播和可解释性,解决LLMs在临床决策中的过度自信问题,提升安全性。

总结:MedBayes-Lite针对临床LLMs的过度自信痛点,通过轻量级贝叶斯增强实现不确定性量化,无需重新训练即可整合到现有模型中。实验表明,该框架有效减少了模型的过度自信,在多个医疗基准上提升了诊断安全性,为医疗AI的可靠应用提供了实用解决方案。

Integrating Symbolic Natural Language Understanding and Language Models for Word Sense Disambiguation

论文链接arxiv.org/pdf/2511.16…

核心问题:现有词义消歧方法依赖手工标注数据,难以处理复杂符号表示(如OpenCyc),无法有效利用LLMs的语言理解能力。

主要方法:提出零样本词义消歧方法,将符号NLU系统生成的候选意义转换为自然语言替代项,利用统计语言模型(LLMs)作为“oracle”选择合适解释,无需手工标注训练数据。

关键结果:通过人类标注的黄金答案验证,方法有效解决了复杂符号表示的词义消歧问题。

研究意义:结合符号NLU和LLMs的优势,突破传统方法的标注依赖,为复杂推理场景下的词义消歧提供新路径。

总结:该方法整合符号自然语言理解与LLMs,利用LLMs的语言理解能力进行零样本词义消歧,无需手工标注数据即可处理复杂符号表示。实验验证了其有效性,推动了词义消歧向更复杂场景的扩展。

You Only Forward Once: An Efficient Compositional Judging Paradigm

论文链接arxiv.org/pdf/2511.16…

核心问题:多模态大语言模型(MLLMs)作为评委时,要么输出单一分数(偏离生成本质),要么生成冗长分析(计算成本高),难以平衡效率与细粒度理解。

主要方法:提出YOFO框架,通过模板条件单步前向传递判断所有要求——利用autoregressive模型的最终token logits生成二元决策,支持依赖感知分析和post-hoc CoT(思维链)。

关键结果:在推荐数据集上超越现有方法,实现数量级速度提升,同时保持可解释性。

研究意义:为MLLMs作为评委提供高效、细粒度的判断框架,解决“生成式评委”的效率-理解权衡问题。

总结:YOFO针对MLLMs评委的效率痛点,通过单步前向传递实现高效判断,同时支持依赖感知的细粒度分析。实验表明,该框架在推荐任务上表现优异,为MLLMs的实用化提供了新范式。

SurvAgent: Hierarchical CoT-Enhanced Case Banking and Dichotomy-Based Multi-Agent System for Multimodal Survival Prediction

论文链接arxiv.org/pdf/2511.16…

核心问题:现有生存预测方法缺乏多模态整合、有效ROI探索和历史案例经验学习,无法提供可解释结果。

主要方法:提出分层CoT增强多代理系统SurvAgent,包含两个阶段:(1) WSI-Gene CoT增强案例库构建(病理图像分层分析、基因分层分析,生成结构化CoT报告);(2) 二分法多专家代理推理(通过RAG检索相似案例,整合多模态报告与专家预测)。

关键结果:在五个TCGA队列上超越传统方法和医疗代理,提升生存预测性能。

研究意义:为精准肿瘤学提供可解释的AI驱动生存预测范式,整合多模态数据与案例经验,提升临床决策支持能力。

总结:SurvAgent通过分层CoT和多代理系统,整合病理图像与基因数据,利用RAG检索历史案例,提升了生存预测的准确性和可解释性。实验验证了其在肿瘤学中的有效性,为临床生存预测提供了新工具。

Utilizing Large Language Models for Zero-Shot Medical Ontology Extension from Clinical Notes

论文链接arxiv.org/pdf/2511.16…

核心问题:现有医学本体扩展方法未充分利用临床笔记中的非结构化信息,缺乏零样本能力。

主要方法:提出CLOZE框架,使用LLMs从临床笔记中自动提取医疗实体并整合到分层本体中——利用LLMs的语言理解和生物医学知识,自动去除PHI(受保护健康信息)保护隐私。

关键结果:零样本框架无需额外训练,准确提取实体和关系,支持下游生物医学研究与临床信息学应用。

研究意义:为医学本体扩展提供高效、隐私保护的方法,提升本体的覆盖范围和实用性。

总结:CLOZE框架利用LLMs的零样本能力,从临床笔记中提取医学实体扩展本体,无需手工标注且保护隐私。实验表明,该方法有效提升了医学本体的实用性,为生物医学研究和临床信息学提供了支持。

The Oracle and The Prism: A Decoupled and Efficient Framework for Generative Recommendation Explanation

论文链接arxiv.org/pdf/2511.16…

核心问题:端到端生成推荐解释的LLM架构存在性能-效率权衡,联合优化排名与解释导致次优结果。

主要方法:提出Prism框架,分离推荐为排名解释生成阶段:(1) 用强大的教师LLM(如FLAN-T5-XXL)作为“Oracle”生成高保真解释知识;(2) 用紧凑的学生模型(如BART-Base)作为“Prism”合成个性化解释。

关键结果:140M参数的Prism模型超越11B参数的教师模型,人类评估中忠实性和个性化更优;推理速度提升24倍,内存减少10倍。

研究意义:通过解耦架构和知识蒸馏,实现高效、高质量的推荐解释,解决性能-效率权衡问题。

总结:Prism框架通过解耦排名与解释生成,利用知识蒸馏从教师LLM获取解释知识,学生模型生成个性化解释。实验表明,该框架在保持解释质量的同时提升了效率,为生成式推荐解释提供了高效解决方案。

Beyond Tokens in Language Models: Interpreting Activations through Text Genre Chunks

论文链接arxiv.org/pdf/2511.16…

核心问题:LLMs的结构可解释性差,无法通过输出全面评估其理解,缺乏对文本类型(genre)的分析。

主要方法:提出通过文本类型块的激活来预测文本类型——使用Mistral-7B和两个数据集,用scikit-learn分类器从LLM激活中提取文本类型,无需人类评估所有输出。

关键结果:F1-scores高达98%(数据集1)和71%(数据集2),超越控制任务,证明文本类型可从LLM激活中推断。

研究意义:为LLMs的可解释性提供新视角,通过激活分析理解其对文本类型的处理,提升安全性与可靠性。

总结:该研究通过分析LLM的激活模式,实现了文本类型的预测,证明了从激活中提取高层语义信息的可行性。实验结果为LLMs的可解释性研究提供了新方法,有助于理解其内部处理机制,提升应用安全性。