动态剪枝网络节点以提升大模型效率
受大脑中专门化处理区域启发的语言模型,可显著节省时间和成本。
作者:Jing Liu, Grant Strimel
2025年7月21日
阅读时长:3分钟
基础模型(FMs),如大型语言模型和视觉语言模型,正日益普及,但其能源效率低下和计算成本高昂的问题仍然是更广泛部署的障碍。为应对这些挑战,我们提出了一种新架构,在我们的实验中,该架构将基础模型的推理时间缩短了30%,同时保持了其准确性。我们的架构克服了先前提高效率方法中的挑战,同时保持了模型的适应性和结构完整性。
在传统架构中,当基础模型面临新任务时,数据会流经其所有处理节点(或神经元),即使它们与当前任务无关。不幸的是,这种全员参与的方法导致了高计算需求和成本增加。
我们的目标是构建一个能够根据任务动态选择合适神经元子集的模型;例如,这与大脑依赖视觉或听觉皮层中的专门化神经元簇来执行看或听功能的方式类似。这样的基础模型可以适应多种类型的输入(如语音和文本)、多种语言,并产生多种类型的输出。
在提交至今年国际学习表征会议(ICLR)的一篇论文中,我们提出了一种用于多语言语音识别、翻译和语言识别的、新颖的上下文感知基础模型。该模型不是激活整个网络,而是根据输入上下文选择激活神经元束(即模块)。输入上下文包括输入语言、特定语言的语音特征以及任务是语音翻译、语音识别还是语言识别等特征。
一旦模型识别出上下文,它就会预测激活每个模块的可能性。我们将这些可能性称为门控概率,每个概率构成一个我们称之为门控预测器的过滤器。如果门控概率超过某个阈值,相应的模块就会被激活。例如,基于几个德语单词,模型可能会以超过门控阈值的可能性预测上下文为“德语音频”。该预测会打开一组适当的通路,同时关闭其他通路。
先前的剪枝方法主要集中在模型层和卷积核的细粒度剪枝上。然而,层剪枝会损害模型的结构完整性,而细粒度核剪枝会抑制模型适应不同类型输入的能力。
模块级剪枝使我们能够在结构灵活性和解释不同上下文的能力之间取得平衡。该模型经过训练,可在运行时动态剪枝无关模块,从而鼓励每个模块专注于不同的任务。
在实验中,我们的模型表现出与传统模型相当的性能,但使用的GPU减少了30%,从而降低了成本并提高了速度。
除了节省计算资源外,我们的方法还允许我们观察模型在训练过程中如何处理语言信息。对于任务的每个组成部分,我们都可以看到各个模块使用情况的概率分布。例如,如果我们要求模型将德语语音转录为文本,则只有针对德语和口语的模块被激活。
这项工作专注于专门处理语音任务的基础模型。未来,我们旨在探索这种方法如何推广到处理更多输入类型(包括视觉、语音、音频和文本)的基础模型。
致谢: 我们要感谢Shinji Watanabe、Masao Someki、Nathan Susanj、Jimmy Kunzmann、Ariya Rastrow、Ehry MacRostie、Markus Mueller、Yifan Peng、Siddhant Arora、Thanasis Mouchtaris、Rupak Swaminathan、Rajiv Dhawan、Xuandi Fu、Aram Galstyan、Denis Filimonov和Sravan Bodapati进行的有益讨论。FINISHED