青训营笔记：LLM微调（个人扩展）lora 一个Base模型+不同lora支持不同下游任务 lora参数微调显存要求低

lora

一个Base模型+不同lora支持不同下游任务
lora参数微调显存要求低
部署lora可以和base合并不增加额外的推理时间
lora可以与其他微调方法结合使用

主体的改动在transformer的multi-head attention

LoRA是怎么去微调适配下游任务的

流程很简单，LoRA利用对应下游任务的数据，只通过训练新加部分参数来适配下游任务。而当训练好新的参数后，利用重参的方式，将新参数和老的模型参数合并，这样既能在新任务上到达fine-tune整个模型的效果，又不会在推断的时候增加推断的耗时。

具体思路是，与微调预训练的大型语言模型的权重矩阵（W）中的所有权重相比，微调两个较小的矩阵（A和B），这两个矩阵近似于对原始矩阵的更新。

W0 + ΔW = W0 + BA，其中W0（dk）、A（dr）和B（r*k），r << d、k

这些矩阵构成LoRA适配器。这里的“r”是一个超参数（该论文建议使用1、2、4、8或64，其中4或8在大多数情况下效果最好）。在训练期间，W0被冻结，不接收梯度更新，而A和B包含可训练参数。W0和ΔW = BA与相同的输入进行乘法运算，它们的输出向量在坐标上进行求和。A使用随机高斯初始化，B使用零初始化，因此在训练开始时ΔW = BA为零。

在推理时，将左右两部分的结果加到一起即可，h=Wx+BAx=(W+BA)x，所以，只要将训练完成的矩阵乘积BA跟原本的权重矩阵W加到一起作为新权重参数替换原始预训练语言模型的W即可，不会增加额外的计算资源。

伪代码

input_dim = 768  # e.g., the hidden size of the pre-trained model
output_dim = 768  # e.g., the output size of the layer
rank = 8  # The rank 'r' for the low-rank adaptation

W = ... # from pretrained network with shape input_dim x output_dim

W_A = nn.Parameter(torch.empty(input_dim, rank)) # LoRA weight A
W_B = nn.Parameter(torch.empty(rank, output_dim)) # LoRA weight B

# Initialization of LoRA weights
nn.init.kaiming_uniform_(W_A, a=math.sqrt(5))
nn.init.zeros_(W_B)

def regular_forward_matmul(x, W):
    h = x @ W
return h

def lora_forward_matmul(x, W, W_A, W_B):
    h = x @ W  # regular matrix multiplication
    h += x @ (W_A @ W_B)*alpha # use scaled LoRA weights
return h

Lora微调速度快

使用loRA时会对主干模型做int8甚至是int4的量化，使得主干模型的前向传播和反向传播耗时减少
多卡训练(数据并行)时，卡间通信只需要同步loRA模型部分的梯度，大大减少通信压力，也会使总训练速度变快。
秩的选取：对于一般任务，rank=1,2,4,8足矣。对于领域差距较大的任务可能需要更大的秩。

cloud.tencent.com/developer/a…