📖标题:PMoE: Progressive Mixture of Experts with Asymmetric Transformer for Continual Learning
🌐来源:arXiv, 2407.21571
🛎️文章简介
🔸研究问题:大语言模型(LLM)在持续学习过程中容易出现灾难性遗忘。
🔸主要贡献:论文提出了一种渐进的非对称专家混合(PMoE)架构,兼顾了持续学习中的知识保留和适应新知识。
📝重点思路
🔺相关工作
🔸参数高效微调(PEFT):随着模型增大,有效地微调至关重要。PEFT在微调阶段冻结预训练参数、仅更新一小部分参数,包括插入额外的模块(P-Tuning)和低秩适应(LoRA)
🔸持续学习:可以分为三种主要类型,基于重放(使用之前的任务)、基于正则化(仅更新在先前任务上训练的部分权重)和基于架构(隔离先前任务的权重,并逐步增加新任务的权重)
🔺论文方案
🔸关键思想:模型的浅层保留一般知识,深层获取特定于任务的新知识。
🔸模型架构:引入不对称深度设计,通过阈值将网络分为浅层和深层,深层包含不同的专家,浅层和深层中间嵌入一个路由。
🔸知识分配:路由将输入文本的隐藏特征分配给深层专家,引入辅助函数来提高分配效果。
🔸模型训练:使用低秩适应(LoRA)方法,通过更新分解的权重来高效适应预训练模型。
🔎分析总结
🔸非对称设计在保留先前知识的同时,对新知识的适应既有效又参数高效。
🔸PMoE在基准测试中优于基于重放和先前最先进的方法,包括LoRA。
🔸路由分析显示,辅助损失函数在使专家任务特定化方面有效,但在总体性能上略有下降,表明多专家组合对总体性能
有积极影响。
💡个人观点
论文的核心是引入LLM的非对称概念,拆分为浅层和深层分别对应通用知识和专业知识,深层结合LoRA来构建专家。