ICLR 2025共有3篇论文获得杰出论文奖,其核心内容如下:
- 《Safety Alignment Should be Made More Than Just a Few Tokens Deep》:当前大语言模型(LLM)的安全对齐存在脆弱性,许多问题源于“浅层安全对齐”,即现有对齐机制往往仅在模型生成的最初几个输出token上进行调整。研究者通过案例分析,解释了浅层安全对齐为何存在,以及其如何导致LLM对多种攻击易感,如对抗性后缀攻击、预填充攻击等。该研究提出,应将安全对齐机制延伸至超出最初数个token的范围,并设计了一种带正则项的微调目标函数,以增强模型对常见攻击方式的鲁棒性和对微调攻击的持久性。
- 《Learning Dynamics of LLM Finetuning》:学习动态是理解深度学习系统行为的有力工具,研究者为深入理解大语言模型在不同微调类型下的学习动态,采用分步式分解方法分析潜在响应之间影响如何逐步积累。该框架能解释指令微调与偏好微调算法训练中的多个现象,如某些幻觉现象在微调后更显著的原因。此外,研究者还引入“压缩效应”来解释离线策略直接偏好优化过程中的问题,并揭示了在线策略直接偏好优化及其变体能更有效优化模型行为的原因,同时启发了一种提升对齐效果的方法。
- 《AlphaEdit: Null-Space Constrained Model Editing for Language Models》:大型语言模型常出现幻觉现象,现有定位-编辑方法虽能更新知识,但会扰乱模型中原有知识。为此,研究者提出AlphaEdit,它会在将扰动应用到参数之前,先将扰动投影到保留知识的零空间上。理论上,这种方式可确保查询保留知识时,模型输出不变。在LLaMA3、GPT2-XL和GPT-J等多种大型语言模型上的实验表明,AlphaEdit平均能使大多数定位-编辑方法的性能提升36.7%,且只需添加一行用于投影的额外代码。