大模型微调蒸馏小模型大模型微调蒸馏小模型【AI大模型教程】最近工作上中在忙业务融合大模型，产研算三方都在往大模型的方

大模型微调蒸馏小模型

最近工作上中在忙业务融合大模型，产研算三方都在往大模型的方向发力，上面说，在大模型的时代，要使用大模型的思考方式，要用颠覆的方式去解决问题

我只是一名“碉堡侠”，负责给大模型搜集业务数据，这里面角色最重要的，当然是指挥大家做大模型场景应用的人，现在的感觉是，大模型已经来了，大家都在往上冲，你没有场景也得想场景

基于业务场景，我们是从数据源的角度来应用大模型的，就是家里有白菜，就基于白菜来考虑做什么菜。我们家里的数据主要是图像和语言，所以，也主要从图像、语音的数据提取来考虑应用大模型的解题。

背景基本上做了交代，在分析图像数据的时候，我们使用了235b的大模型，模型的识别准确率比较高，但是处理性能比较弱，主要体现在耗时比较长。

算法提出了对模型蒸馏的处理思路，我对模型微调的理解以为就是训练一个 lora，没想到还有蒸馏这种，孤陋寡闻。模型蒸馏的结果需要独立部署，而lora这种微调必须结合基模一块部署。

关于知识增留的理解：

知识蒸馏（Knowledge Distillation, KD）是一种通过“教师-学生”（Teacher-Student）架构，将大型复杂模型（教师模型）的知识迁移到小型轻量模型（学生模型）的模型压缩与性能提升技术。其核心目标是让小模型在保持低延迟、低计算资源需求的同时，继承大模型的泛化能力与预测性能，解决大模型部署中的“性能-效率”矛盾。

解释一下训练的思路对这个过程就会有清晰的理解：

先找一批样本，用235B的大模型去处理；拿到大模型处理的结果，去微调一个32B的小模型，最后就得出一个具备了大模型思路的小模型，不过，这种小模型也限制了只能处理某一个具体的场景（训练的场景）。

总结：

微调的本质还是：将模型的所有或大部分原始参数冻结，并通过训练一组额外的、更小的参数来扩展或替换模型层