Ollama
主要是对个人用户。
- Ollama上的所有大模型,都是量化版本,精度没有原始的高。
- 对分布式推理比较弱
企业一般用VLLM
只做大模型推理
直接安装
推理框架,调用大模型用的
transformer有一些问题
- 效率比较低
- 不支持API.前端,调用API
ollama serve
ollama run llama3.2:1b
局部微调,Lora,QLora
LLaMa-Factory介绍
局部微调,我应该微调模型的哪个部分?
基本概念
- LoRA(Low-Rank Adaptation)是一种用于大模型微调的技术,通过引入低秩矩阵来减少微调时的参数量。
- W_0 + Detlta W = W_0 + BA
- 其中B和A的秩远小于原始矩阵的秩,从而大大减少了需要更新的参数数量
原理
- 训练时,输入分别与原始权重和两个低秩矩阵进行计算,共同得到最终结果,优化则仅优化A和B
- 训练完成后,可以将两个低秩矩阵与原始模型中的权重进行合并,合并后的模型与原始模型无异
融合的原理,知识蒸馏
知识蒸馏 blog.csdn.net/qq_46684028…
思想
- 预训练模型中存在一个极小的内在维度,这个内在维度是发挥核心作用的地方。在继续训练的过程中,权重的更新依然也有如此特点,即也存在一个内在维度(内在秩)
- 权重更新: W = W + ^W
- 因此,可以通过举证分解的方式,将原本要更新的大的矩阵变为两个小的矩阵
- 权重更新:W = W + ^W = W + BA
- 具体做法,即在矩阵计算中增加一个旁系分支,旁系分支由两个低秩矩阵A和B组成
LLaMa-Factory
- 安装
- 运行
- 启动 nohup
数据量
- 下限:30条 50条 也可以出效果,但是泛化性差
- 上限:越多越好。
重点不是数据量,而是数据的质量。