[笔记][大模型学习]13-LLaMA-Factory模型导出量化

433 阅读1分钟
  • LLama Factory模型量化环境配置
  • LLama factory模型评估
  • LLama Factory模型导出量化与效果对比
  • 如何用LLama factory基于之前训练的权重继续训练

每一个大模型对自己微调的数据有自己的要求。

数据集格式:

  • Alpaca
  • ShareGPT

数据格式转换的代码,不用自己去写,直接让AI帮你写即可

显卡为什么会掉?

  • 基于Ubuntu, 如果更新内核,显卡就会掉
  • 基于docker的,如果没有封装好,也会掉

一般解决方法就是重启。

auto-gptq

AutoGPTQ 是一个易于使用的低延迟语言模型量化软件包。具有用户友好的API,基于GPTQ算法。

和cuda和pyTorch 版本有要求

量化

AI模型在推理时,会面临性能和精度的抉择问题。 可以选择牺牲精度提升性能。

模型推理加速:

  • 剪枝
  • 蒸馏
  • 量化

剪枝和蒸馏最大的问题,在于效果好坏取决于经验。量化则基本是在可控的范围内。

知识蒸馏问题:

  • 得训练两次
  • 小模型的设计有门槛

量化,裁剪参数的存储精度

训练的时候可以做量化,QLora. 加了量化的Lora微调。 导出的时候的量化.

需要先合并,再去做导出量化。

导出量化校准数据集。

AI模型很大,量化时,每一次的误差如果不管,会变得很大。需要控制这个误差。

量化一般选Auto,因为有些GPU架构不支持量化