指令微调
指令微调(Instruction Tuning)是指使用自然语言形式的数据对预训练后的大语言模型进行参数微调。 之前训练把自然语言做了一定转化,但是最后用的时候还是要让模型说人话,所以要用到自然语言数据做后训练。微调之后能提升模型的泛化能力,换言之能够化陌生为熟悉,编出答案来。
指令微调与常见策略
指令数据构建最微调的重要步骤。和预训练一样,最开始需要大量手动标记数据,后面开始想办法半自动地生成数据。课件里举了3个例子,分析指令数据的作用,介绍了指导性原则,并列举Qwen等模型的例子。介绍用packing提高训练效率。
轻量化微调
有针对性地选取参数在降低显存占用的同时,尽可能保证性能接近全量微调。
重点讲到lora,顺便讲解适配器等其他方法。
总结: 这部分数学相关内容多起来,后面得补充理论消化一下。