多头对齐:视觉语言模型知识蒸馏新方法

5 阅读1分钟

多头对齐:视觉语言模型知识蒸馏新方法

方法保留教师模型注意力头中编码的知识,即使学生模型的注意力头数量更少也能实现

基于Transformer架构的大型机器学习模型最近在视觉和语言任务上展现出卓越的性能。然而,这类大模型通常因速度问题难以满足实时应用需求,因此实际系统常采用知识蒸馏技术,将大模型的知识提炼到更精简、更快速的模型中。

Transformer模型的定义性特征是其注意力机制,该机制决定了先前看到的数据对当前数据处理的影响程度。注意力机制通常组织成多个,每个头关注数据的不同方面。

传统的大型Transformer蒸馏通常将经过训练的大模型(教师模型)的注意力头与精简目标模型(学生模型)的注意力头进行一对一的对齐。然而,限制注意力头的数量正是学生模型降低复杂度的关键方式之一。

在今年的人工智能促进协会(AAAI)年会上,我们提出了一种替代方案:将教师模型所有注意力头的知识都蒸馏到学生模型所有注意力头中。由于学生模型的头数少于教师模型,学生模型中的单个注意力头最终可能会编码教师模型中多个注意力头所包含的信息。

致谢:Srikar Appalaraju, Peng Tang, Vijay Mahadevan, R. Manmatha, Ying Nian Wu。

研究领域标签
计算机视觉、对话式AI生成式AI、知识蒸馏、视觉语言模型(VLMs)、AAAIFINISHED