大语言模型并非所有层都必要

5 阅读2分钟

大语言模型真的需要所有这些层吗?

研究发现,70%的注意力头和20%的前馈网络可以被剔除,而对上下文学习的影响极小,这表明大语言模型训练不足。

作者:Karthik Gopalakrishnan,2023年7月9日,阅读时间3分钟

大语言模型(LLM)已经存在一段时间了,但今年随着ChatGPT的出现,它们真正吸引了公众的注意。LLM通常在海量数据上进行预训练;最近的变体还额外进行了指令微调,并利用强化学习融入人类反馈。这些LLM展现出的一个迷人能力是上下文学习:模型仅需遵循与新输入一起提供的几个(有时甚至零个)优秀示例,就能学会执行一项任务。遵循这种学习范式,在预训练数据量固定的情况下,更大的LLM也被证明比较小的模型更有能力执行更广泛的任务。

在提交给本年度计算语言学协会(ACL)会议的论文中,从架构可解释性的角度研究了模型规模对上下文学习的重要性。具体提出的问题是:执行上下文学习是否真的需要LLM的所有组件?

总体的观察结果是,似乎只有核心的一小部分注意力头和FFN对上下文学习是重要的,这表明OPT-66B以及很可能其他主流LLM都训练不足。这也印证了近期一些质疑在模型规模扩大时保持预训练数据量固定这一做法的研究,表明预训练数据量必须与模型本身同步扩展才能达到最优性能。观察研究发布后出现的新版LLM(例如那些经过指令微调的模型)在此类分析中的表现,将会非常有趣。


研究领域:对话式AI,机器学习

标签:大语言模型 (LLMs)FINISHED