大模型简介

122 阅读1分钟

大模型简介

大模型有两个方向,一是通用大模型,二是垂直领域大模型,比如法律、医疗领域,后者可能是个伪命题,通常我们说大模型,希望这个模型在多个领域都能工作,否则充其量就是在一个具体领域的参数稍大点的模型。对于大多数人或公司,没有足够的财力(数据、GPU、人才)从头开始训练大模型,基于已有的大模型作为基座,用自身业务相关的数据进行微调(finetune),是一个很好的选择。

参数微调

微调也有两种方法,一是模型全部参数的微调,二是少量参数高效的微调。前者由于参数多,需要的GPU多,并且全参数微调可能把模型带偏,后者只需要微调少量参数,需要的GPU少,还可能达到不错的效果,成为大家研究的重点,取了个专有名词Parameter-Efficient Fine-Tuning,简称PEFT,即高效参数微调。

参数微调方法

BitFit、Prompt-Tuning、P-Tuning、Prefix-Tuning、LoRA、IA3