[笔记][大模型学习]11-Llama3.2模型微调

2025-04-02 81 阅读2分钟

Ollama

主要是对个人用户。

Ollama上的所有大模型，都是量化版本，精度没有原始的高。
对分布式推理比较弱

企业一般用VLLM

只做大模型推理

直接安装

推理框架，调用大模型用的

transformer有一些问题

效率比较低
不支持API.前端，调用API

ollama serve
ollama run llama3.2:1b

局部微调，Lora,QLora

LLaMa-Factory介绍

局部微调，我应该微调模型的哪个部分？

基本概念

LoRA(Low-Rank Adaptation)是一种用于大模型微调的技术，通过引入低秩矩阵来减少微调时的参数量。
W_0 + Detlta W = W_0 + BA
其中B和A的秩远小于原始矩阵的秩，从而大大减少了需要更新的参数数量

原理

训练时，输入分别与原始权重和两个低秩矩阵进行计算，共同得到最终结果，优化则仅优化A和B
训练完成后，可以将两个低秩矩阵与原始模型中的权重进行合并，合并后的模型与原始模型无异

融合的原理，知识蒸馏

知识蒸馏 blog.csdn.net/qq_46684028…

思想

预训练模型中存在一个极小的内在维度，这个内在维度是发挥核心作用的地方。在继续训练的过程中，权重的更新依然也有如此特点，即也存在一个内在维度（内在秩）
权重更新: W = W + ^W
因此，可以通过举证分解的方式，将原本要更新的大的矩阵变为两个小的矩阵
权重更新：W = W + ^W = W + BA
具体做法，即在矩阵计算中增加一个旁系分支，旁系分支由两个低秩矩阵A和B组成

LLaMa-Factory

安装
运行
启动 nohup

数据量

下限：30条 50条也可以出效果，但是泛化性差
上限：越多越好。

重点不是数据量，而是数据的质量。