一文理解 AdaLoRA 动态低秩适配技术传统 LoRA 固定低秩大小，难以兼顾所有层的复杂性和任务需求。 AdaLoR

📚 微调系列文章

随着大规模语言模型的不断壮大，如何在有限资源下高效微调模型，成为研究热点。
传统 LoRA 固定低秩大小，难以兼顾所有层的复杂性和任务需求。
AdaLoRA（Adaptive LoRA）创新地引入动态调整秩的机制，根据层的重要性和训练过程自动分配参数资源，提升微调效果和效率。

在了解 AdaLoRA 之前，可以带着这三个问题阅读本文：

所有相关源码示例、流程图、模型配置与知识库构建技巧，我也将持续更新在Github：LLMHub，欢迎关注收藏！

LoRA 通过低秩矩阵分解实现参数高效微调，显著降低训练成本。
但其固定秩设计对所有层一视同仁，无法针对不同层和任务灵活调整参数预算。

这带来两大问题：

因此，动态、按需分配秩大小的需求日益凸显。

AdaLoRA 通过引入 动态秩调整机制，实现训练中对各层低秩参数的自适应分配。

具体来说，AdaLoRA采用奇异值分解（SVD）对增量矩阵进行参数化，利用重要性指标剪枝低影响的奇异值，同时保留奇异向量。由于完整SVD计算代价极高，该方法通过降低参数预算来加快计算过程，并保持后续恢复的可能性，保证训练稳定。

此外，为了避免繁重的SVD计算，AdaLoRA在训练损失中加入正交性约束，规范奇异矩阵 P和 Q，从而简化训练过程，提升模型稳定性。

这样，模型能够在有限参数预算下，发挥最大潜力。

适用场景包括：

最后我们回答一下开头的三个问题

固定秩的 LoRA 有哪些局限？
固定秩无法灵活适应不同层的需求，导致部分层参数浪费，另一些关键层参数不足，影响微调效果和资源利用效率。
AdaLoRA 是如何实现动态秩分配的？
AdaLoRA根据梯度或权重幅度动态调整每层低秩矩阵大小，剪枝不重要通道，将参数资源集中到关键层，实现更优的参数利用。
采用 AdaLoRA 微调时，应注意哪些关键点？
需合理设置调整频率、选择准确的重要性指标并加入正则防止过度剪枝，同时调节超参数保证训练稳定和微调效果。

关于深度学习和大模型相关的知识和前沿技术更新，请关注公众号coting！