模型蒸馏是什么?一文带你搞懂“模型蒸馏”看这篇就够了!

269 阅读4分钟

01 什么是模型蒸馏

专业解释:

模型蒸馏是一种知识迁移技术,通过让学生模型学习教师模型的输出(如概率分布或中间特征),在保留关键性能的同时显著降低模型体积和推理开销。

图片

通俗解释: 就像一位资深大厨(大模型)教徒弟(小模型)做菜。徒弟不需要背下所有菜谱(全部训练数据),只需模仿师傅的做菜方式和调味技巧(推理轨迹/推理输出),也能做出味道相近的菜肴。

为什么需要模型蒸馏?

大模型在实际应用中面临三大挑战:

训练资源消耗高: 需要大量计算资源。

部署困难: 对设备算力要求高,难以在手机、l0T等资源受限设备上运行。

推理资源消耗大: 单次推理计算量大,导致响应慢、能耗高。

模型蒸馏通过知识迁移,有效缓解了上述问题。

图片

02 模型蒸馏的原理

步骤一: 教师模型提供“参考* 答案”*

传统训练使用“硬标签”(只有一个正确答案),而模型蒸馏采用“软标签”: 即教师模型输出的各选项概率分布(反映模型对不同答案的判断倾向)

例子:

提示词: “法国首都是哪?”

硬标签: 巴黎

软标签:

巴黎:92%(正确答案)

马赛: 5%(易混淆)

里昂: 2%(历史因素)

其他: 1%

图片

软标签提供更多信息,能揭示教师模型的判断逻辑,帮助学生模型更好地理解“为什么选择这个答案,而不是其他”。

步骤二: 双重训练目标,既学思路也保准确

学生模型同时优化两个损失函数:

蒸馏损失(KL散度) :

衡量学生模型输出与教师模型生成“软标签”的接近程度。

让学生模型掌握教师模型的判断逻辑。

监督损失(交叉熵) :

衡量学生模型输出与“硬标签”(真实答案)的吻合程度。

防止因一味模仿,失去基础判断能力。

图片

两者加权求和,形成整体损失函数: 总损失 = α x 蒸馏损失 +(1- α) x 监督损失

注: α 是权重系数,调节“模仿”与“准确”的平衡

步骤三: 正常训练流程

学生模型通过反复执行: 前向推理 → 计算损失 → 反向传播 → 更新参数逐渐接近教师模型的水平

上述过程称为知识蒸馏。其他蒸馏策略:

中间层蒸馏: 学习教师模型的中间层特征(思考过程)

关系蒸馏: 学习教师模型对不同样本间的关系理解

03 蒸馏 vs 微调

图片

04 实际例子

以 deepseek-671B 为教师模型蒸馏得到的新模型

Qwen2.5-Math-1.5B→DeepSeek-R1-Distill-Qwen-1.5B

Qwen2.5-Math-7B→DeepSeek-R1-Distill-Qwen-7B

Llama-3.1-8B→DeepSeek-R1-Distill-Llama-8B

Qwen2.5-14B→DeepSeek-R1-Distill-Qwen-14B

Qwen2.5-32B→DeepSeek-R1-Distill-Qwen-32B

Llama-3.3-70B-Instruct→DeepSeek-R1-Distill-Llama-70B

各厂商对模型蒸馏的态度不一。例如,DeepSeek 允许开展模型蒸馏,并且提供推理轨迹,还能进一步实施中间层蒸馏。

图片

而OpenAl则明确禁止使用其模型输出进行蒸馏。尽管有相关政策限制,但从技术层面来看,只要能通过 API获取推理输出,模型厂商就很难彻底阻止他人开展模型蒸馏。

学习资源

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

大模型从零基础到进阶的学习路线大纲全览

图片

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

图片

智泊AI:中国领先的人工智能(AI)平台和服务团队,致力于推动数字转型与智能升级,通过AI技术赋能未来人才发展。

PS:以上学习资源,咨询课程、1对1就业指导、技术进阶提升,公主号(智泊AI)回复:02