[笔记][大模型学习]11-Llama3.2模型微调

81 阅读2分钟

Ollama

主要是对个人用户。

  • Ollama上的所有大模型,都是量化版本,精度没有原始的高。
  • 对分布式推理比较弱

企业一般用VLLM

只做大模型推理

直接安装

推理框架,调用大模型用的

transformer有一些问题

  • 效率比较低
  • 不支持API.前端,调用API
ollama serve
ollama run llama3.2:1b

局部微调,Lora,QLora

LLaMa-Factory介绍

局部微调,我应该微调模型的哪个部分?

基本概念

  • LoRA(Low-Rank Adaptation)是一种用于大模型微调的技术,通过引入低秩矩阵来减少微调时的参数量。
  • W_0 + Detlta W = W_0 + BA
  • 其中B和A的秩远小于原始矩阵的秩,从而大大减少了需要更新的参数数量

原理

  • 训练时,输入分别与原始权重和两个低秩矩阵进行计算,共同得到最终结果,优化则仅优化A和B
  • 训练完成后,可以将两个低秩矩阵与原始模型中的权重进行合并,合并后的模型与原始模型无异

融合的原理,知识蒸馏

知识蒸馏 blog.csdn.net/qq_46684028…

思想

  • 预训练模型中存在一个极小的内在维度,这个内在维度是发挥核心作用的地方。在继续训练的过程中,权重的更新依然也有如此特点,即也存在一个内在维度(内在秩)
  • 权重更新: W = W + ^W
  • 因此,可以通过举证分解的方式,将原本要更新的大的矩阵变为两个小的矩阵
  • 权重更新:W = W + ^W = W + BA
  • 具体做法,即在矩阵计算中增加一个旁系分支,旁系分支由两个低秩矩阵A和B组成

LLaMa-Factory

  • 安装
  • 运行
  • 启动 nohup

数据量

  • 下限:30条 50条 也可以出效果,但是泛化性差
  • 上限:越多越好。

重点不是数据量,而是数据的质量。