INFINIQ：非对称MoE避免LLM灾难性遗忘大语言模型（LLM）在持续学习过程中容易出现灾难性遗忘。论文提出了一种渐

📖标题：PMoE: Progressive Mixture of Experts with Asymmetric Transformer for Continual Learning
🌐来源：arXiv, 2407.21571

🛎️文章简介

🔸研究问题：大语言模型（LLM）在持续学习过程中容易出现灾难性遗忘。
🔸主要贡献：论文提出了一种渐进的非对称专家混合（PMoE）架构，兼顾了持续学习中的知识保留和适应新知识。

📝重点思路

🔺相关工作

🔸参数高效微调（PEFT）：随着模型增大，有效地微调至关重要。PEFT在微调阶段冻结预训练参数、仅更新一小部分参数，包括插入额外的模块（P-Tuning)和低秩适应（LoRA）
🔸持续学习：可以分为三种主要类型，基于重放（使用之前的任务）、基于正则化（仅更新在先前任务上训练的部分权重）和基于架构（隔离先前任务的权重，并逐步增加新任务的权重）

🔺论文方案

🔸关键思想：模型的浅层保留一般知识，深层获取特定于任务的新知识。
🔸模型架构：引入不对称深度设计，通过阈值将网络分为浅层和深层，深层包含不同的专家，浅层和深层中间嵌入一个路由。
🔸知识分配：路由将输入文本的隐藏特征分配给深层专家，引入辅助函数来提高分配效果。
🔸模型训练：使用低秩适应（LoRA）方法，通过更新分解的权重来高效适应预训练模型。

🔎分析总结

🔸非对称设计在保留先前知识的同时，对新知识的适应既有效又参数高效。
🔸PMoE在基准测试中优于基于重放和先前最先进的方法，包括LoRA。
🔸路由分析显示，辅助损失函数在使专家任务特定化方面有效，但在总体性能上略有下降，表明多专家组合对总体性能
有积极影响。

💡个人观点

论文的核心是引入LLM的非对称概念，拆分为浅层和深层分别对应通用知识和专业知识，深层结合LoRA来构建专家。

INFINIQ：非对称MoE避免LLM灾难性遗忘