- LLama Factory模型量化环境配置
- LLama factory模型评估
- LLama Factory模型导出量化与效果对比
- 如何用LLama factory基于之前训练的权重继续训练
每一个大模型对自己微调的数据有自己的要求。
数据集格式:
- Alpaca
- ShareGPT
数据格式转换的代码,不用自己去写,直接让AI帮你写即可
显卡为什么会掉?
- 基于Ubuntu, 如果更新内核,显卡就会掉
- 基于docker的,如果没有封装好,也会掉
一般解决方法就是重启。
auto-gptq
AutoGPTQ 是一个易于使用的低延迟语言模型量化软件包。具有用户友好的API,基于GPTQ算法。
和cuda和pyTorch 版本有要求
量化
AI模型在推理时,会面临性能和精度的抉择问题。 可以选择牺牲精度提升性能。
模型推理加速:
- 剪枝
- 蒸馏
- 量化
剪枝和蒸馏最大的问题,在于效果好坏取决于经验。量化则基本是在可控的范围内。
知识蒸馏问题:
- 得训练两次
- 小模型的设计有门槛
量化,裁剪参数的存储精度
训练的时候可以做量化,QLora. 加了量化的Lora微调。 导出的时候的量化.
需要先合并,再去做导出量化。
导出量化校准数据集。
AI模型很大,量化时,每一次的误差如果不管,会变得很大。需要控制这个误差。
量化一般选Auto,因为有些GPU架构不支持量化