p1
最近看到很多关于 DeepSeek 的知识分享,本瓜也分享一份:清华大学104页《DeepSeek:从入门到精通》 以及本地 部署方式,免费无门槛,开源就是牛!
链接:caiyun.139.com/m/i?2jQXmvf… 提取码:bct5
DS 所带来的最新的、最火的概念就是“蒸馏”,本篇一起来深入了解一下:何谓 DeepSeek “蒸馏”?
p2
DeepSeek-R1的突破性体现在其**“RL is all you need” 通过强化学习直接优化基座模型,并借助蒸馏技术将大模型能力普惠化!
例如,R1在AIME 2024测试中达到79.8%的准确率,超越OpenAI的o1系列,而其蒸馏模型在相同任务中仅需1/80的内存即可实现接近原模型70%的性能。
蒸馏模型基于 Qwen 和 Llama 架构,将R1的推理能力迁移至更小的参数规模(如7B、32B)。
知识蒸馏由Hinton等人于2015年提出,核心目标是:将复杂【教师模型】的知识迁移至轻量化【学生模型】:
怎么理解:
教师模型训练通过海量数据训练高精度大模型(如DeepSeek-R1),学习数据中的复杂模式。而学生模型训练结合软标签与硬标签设计混合损失函数(如KL散度+交叉熵),优化学生模型参数。
教师模型输出的概率分布(软标签)包含类别间关系,比硬标签(单一答案)更利于学生模型泛化,所以,通过参数压缩、轻量化架构调整适配边缘设备。
传统蒸馏的局限在于学生模型难以突破教师模型的“隐性天花板”,DeepSeek通过技术创新实现了性能与效率的平衡~
p3
DeepSeek的蒸馏技术并非简单复现经典方法,而利用数据蒸馏与模型蒸馏的融合、高效知识迁移策略、架构与训练优化 以及开源生态与行业适配。
1、模型蒸馏采用监督微调(SFT)而非强化学习,直接复用教师模型的推理逻辑,例如将671B参数的R1知识迁移至Qwen-7B模型,在AIME 2024中Pass@1达55.5%,超越同规模开源模型。
2、模型取教师模型中间层的语义特征(如Transformer的多头注意力权重),帮助学生模型捕捉数据本质;针对不同场景(如代码生成、医疗诊断)设计定制化损失函数,提升领域适应性;
3、还有比如:引入温度参数平滑软标签分布,结合动态学习率与正则化技术避免过拟合。
4、DeepSeek选择开源框架(如Qwen、Llama)作为学生模型基础,降低开发成本。例如,南威软件通过蒸馏R1模型构建轻量化政务大模型,在边缘设备中实现高效部署。
p4
实验表明,对小模型而言,蒸馏效果远超直接应用强化学习,证明大模型的推理模式具有强可迁移性。
所以,DeepSeek-R1的多模态能力(如视觉-语言联合建模)为跨模态蒸馏(如自动驾驶中的传感器融合)提供新思路;通过蒸馏降低计算门槛,使中小企业也能部署高性能模型。
综上,可以说 DeepSeek通过“大模型强化学习+小模型蒸馏”的技术路径,不仅能与OpenAI的正面竞争,更提供了一个新的大模型研发思路。