大模型微调蒸馏小模型

34 阅读2分钟

大模型微调蒸馏小模型

【AI大模型教程】

最近工作上中在忙业务融合大模型,产研算三方都在往大模型的方向发力,上面说,在大模型的时代,要使用大模型的思考方式,要用颠覆的方式去解决问题

我只是一名“碉堡侠”,负责给大模型搜集业务数据,这里面角色最重要的,当然是指挥大家做大模型场景应用的人,现在的感觉是,大模型已经来了,大家都在往上冲,你没有场景也得想场景

基于业务场景,我们是从数据源的角度来应用大模型的,就是家里有白菜,就基于白菜来考虑做什么菜。我们家里的数据主要是图像和语言,所以,也主要从图像、语音的数据提取来考虑应用大模型的解题。

背景基本上做了交代,在分析图像数据的时候,我们使用了235b的大模型,模型的识别准确率比较高,但是处理性能比较弱,主要体现在耗时比较长。

算法提出了对模型蒸馏的处理思路,我对模型微调的理解以为就是训练一个 lora,没想到还有蒸馏这种,孤陋寡闻。模型蒸馏的结果需要独立部署,而lora这种微调必须结合基模一块部署。

关于知识增留的理解:

知识蒸馏(Knowledge Distillation, KD)是一种通过“教师-学生”(Teacher-Student)架构,将大型复杂模型(教师模型)的知识迁移到小型轻量模型(学生模型)的模型压缩与性能提升技术。其核心目标是让小模型在保持低延迟、低计算资源需求的同时,继承大模型的泛化能力与预测性能,解决大模型部署中的“性能-效率”矛盾。

解释一下训练的思路对这个过程就会有清晰的理解:

先找一批样本,用235B的大模型去处理;拿到大模型处理的结果,去微调一个32B的小模型,最后就得出一个具备了大模型思路的小模型,不过,这种小模型也限制了只能处理某一个具体的场景(训练的场景)。

总结:

微调的本质还是:将模型的所有或大部分原始参数冻结,并通过训练一组额外的、更小的参数来扩展或替换模型层