每个人都在说「蒸馏」,它到底是什么?

0 阅读14分钟

最近你刷AI资讯,一定绕不开两个词:「蒸馏」和「炼化」。DeepSeek靠蒸馏以557万美元训练出顶级模型,Anthropic公开指控三家中国公司蒸馏Claude……这篇文章,我想从头把这件事讲明白,不用代码,不用公式,普通人也能读懂。

 

开篇:一道算术题,和一个让整个硅谷破防的问题

2026年2月23日,AI公司Anthropic发了一篇文章,标题叫《检测与阻止蒸馏攻击》。

文章指控三家中国AI公司——DeepSeek、Moonshot(月之暗面/Kimi)、MiniMax——动用了约2.4万个虚假账户,与Claude进行了超过1600万次对话,目的是将Claude的能力「蒸馏」进自己的模型。

消息一出,全网炸锅。

但我发现一个有趣的现象:绝大多数人都在争论「这算不算偷」「中国AI是不是靠捷径崛起的」,却很少有人认真问那个更基础的问题:蒸馏,到底是什么?

为什么一个技术术语能同时让人觉得它是「模型压缩的黑科技」,又是「偷窃他人成果的罪行」?

这背后,其实是AI行业里最重要也最少被解释清楚的一条逻辑链。

今天我想从头说清楚这件事。

 

第一章:从一位老教授的「错误」说起

时间拉回2015年。

Geoffrey Hinton——深度学习教父,2024年诺贝尔物理学奖得主——和他在谷歌的同事发表了一篇论文,标题是《蒸馏神经网络中的知识》(Distilling the Knowledge in a Neural Network)。

论文里有一个当时听起来相当反直觉的观察。

假设你在训练一个图像识别模型,给它看一张猫的照片。传统的训练方式很简单:正确答案是「猫」,模型答对了就奖励,答错了就惩罚。这叫「硬标签」训练——非对即错,没有中间地带。

但Hinton注意到,大模型在输出「猫:90%」的同时,还输出了「虎:5%,狗:3%,汽车:0.001%」。

这些几乎接近零的小数字,乍看没什么用。但Hinton说:等等,这里面藏着宝贝。

这些小概率数字告诉我们:这个模型「知道」猫和虎之间有某种相似性(都是猫科动物,都有皮毛),猫和狗也有一定相似性(都是家养宠物),而猫和汽车之间几乎没有任何关联。

这些藏在概率分布里、肉眼几乎看不见的信息,Hinton给它起了一个极好的名字:暗知识(Dark Knowledge)

蒸馏的核心,就是让小模型去学大模型输出的这套概率分布,而不只是学对错答案本身。

它学的不是「答案是什么」,而是「老师是怎么思考的」。

这个区别,是整件事的根基。

 

第二章:蒸馏是什么

现在来正式解释「蒸馏」这个词为什么叫蒸馏。

化学里,蒸馏是把一种混合液体加热,让其中的某种成分气化、上升、冷凝,得到更纯粹的提取物。你烧的是一锅酒糟,收集的是高度白酒。体积小了,但精华还在。

AI里的蒸馏,逻辑完全一样:把一个大模型(教师)的「精华」提取出来,灌进一个小模型(学生)里。体积小了,但核心能力还在。

整个过程,可以拆成三步:

第一步:教师模型大量答题。  给教师模型看各种各样的问题——数学题、编程任务、逻辑推理、创意写作,让它一一作答。收集的不只是最终答案,而是它完整的「思考过程」和「概率分布」。

第二步:学生模型跟着学。  学生模型不是对着原始数据重新自学,而是直接模仿教师模型的「答题方式」。教师怎么分解问题、怎么推理、在哪些地方更有把握、在哪些地方更犹豫——这些全部成为学生的训练信号。

第三步:检验效果。  学生模型训练完成后,用测试集评估它是否真正继承了教师的推理能力,而不只是记住了答案。

听起来很像什么?对,就是带实习生。

一个新来的实习生,没有老专家十年积累的行业经验,但如果你把老专家解决问题的完整思考过程详细记录下来,让实习生反复研读、刻意练习——在处理同类问题时,他的表现可能远超预期。

这就是蒸馏的逻辑:不是让学生自己摸爬滚打积累经验,而是直接学习老师积累经验的结果。

 

第三章:DeepSeek的557万美元,背后到底发生了什么

现在我们可以来说那个让整个硅谷震动的数字了。

2025年初,DeepSeek发布了R1模型。它在数学推理和编程任务上的表现,能打平甚至超过OpenAI o1。但问题是,o1背后的训练成本据估算超过1亿美元,而DeepSeek-V3的整体训练成本只有557万美元。

差距接近20倍。

这是怎么做到的?知识蒸馏是核心手段之一。

DeepSeek做了一件很聪明的事:他们先用自己的大模型(671亿参数的R1)解大量复杂的数学、逻辑、编程题目,收集了约80万条高质量的「思维链推理轨迹」——就是那种「首先我们分析条件X,由此可以推出Y,结合Z,得到答案」的完整推理过程。

然后,他们把这80万条推理轨迹作为训练数据,用来训练一系列更小的模型(从1.5B到70B参数)。

结果让人咋舌:

一个1.5B参数的蒸馏版小模型——这个体量,在手机上都可以运行——在数学推理基准MATH-500上能拿到83.9分。DeepSeek-R1-Distill-Qwen-32B在多项基准上直接超越了OpenAI o1。一个320亿参数的「学生」,击败了由更大模型支撑的「老师」同级别竞品。

更直接的数字对比:DeepSeek-R1的API定价是每百万token输入0.55美元,而GPT-4o是2.50美元,相差约4.5倍。

用一句话概括:蒸馏让AI的知识成本急剧降低。你不需要花1亿美元从零训练,只需要找到一个更聪明的老师,让学生把它的推理方式吸收干净。

苹果也在用同样的逻辑。苹果为iPhone设计的本地AI模型(Apple Intelligence),参数量约30亿——跑在A17芯片上,无需联网。这些本地小模型,就是从苹果服务器端的大模型蒸馏而来的。用户感受到的是流畅的端侧AI体验,背后是蒸馏技术把一个庞然大物压缩进了手机芯片里。

 

第四章:蒸馏有几种,差别在哪里

说到这里需要澄清一件事:「蒸馏」不是一种技术,而是一类技术的统称。不同的蒸馏方式,原理和效果差别很大。

第一种:软标签蒸馏(原版Hinton方法)。  就是前面说的,让学生模型学习教师模型的概率分布,而不只是最终答案。这是2015年的经典做法,在图像分类等任务上效果很好。

第二种:特征蒸馏。  不只学输出,还学教师模型内部的「中间层表征」——可以理解为让学生不只看老师的答卷,还要理解老师的思维框架。这种方式能传递更深层的结构化知识。

第三种:思维链蒸馏(Chain-of-Thought Distillation)。  这是2025年最活跃的方向,也是让DeepSeek小模型能「推理」的核心。训练数据不只包含最终答案,而是完整的推理过程:第一步分析什么,第二步推导什么,第三步得出什么结论。学生模型通过学习这种完整的解题路径,习得了「像老师一样思考」的能力。

第四种:自蒸馏。  模型用自己之前版本的输出来训练自己——相当于让聪明的自己教现在的自己。微软的Phi-3系列大量使用了这种方式,在参数量极小的情况下达到了惊人的推理性能。

这四种方式有一个核心区别:蒸馏自己的模型叫降本增效;蒸馏别人的模型,就是另一回事了。

 

第五章:Anthropic破防了

2026年2月23日,Anthropic发布了那篇措辞严厉的声明。按照Anthropic的描述,三家中国公司的操作规模和手法分别是:

MiniMax:约1300万次交互,是三家里规模最大的。  Anthropic给MiniMax使用的基础设施起了个名字——「Hydra集群」——一个分布式、多账号并行的蒸馏系统,目标是最大化数据获取量同时规避检测。主要提取的能力是智能体编程(Agentic Coding)和工具编排(Tool Orchestration)——这恰好是Claude近年来最核心的竞争力所在。

Moonshot(Kimi):约340万次交互。  主攻方向是Agent推理、工具调用、代码与数据分析、Computer-use开发。Anthropic声称通过请求元数据,将部分账户关联到了月之暗面高管的公开资料。

DeepSeek:约15万次交互,数量最少但手法最精准。  不是广撒网式收集答案,而是专门提取Claude在复杂问题上的推理逻辑——要的不是「结论是什么」,而是「得出结论的完整思维过程」。Anthropic还指控DeepSeek用Claude作为强化学习的奖励模型,对自己的数学和逻辑输出打分。

这场事件在全网引发了激烈讨论,而反应最有趣的恰恰是技术社区本身。

RLHF领域最知名的研究者之一Nathan Lambert(Allen AI研究所科学家)泼了冷水:DeepSeek的15万次交互,「更像是某个小团队在内部做实验,大概率连训练负责人都不知道」,对整个模型的影响可以忽略不计。

另一个被反复提起的讽刺是:Anthropic自己指控别人「蒸馏」,但它自己的模型是怎么训练出来的?也是爬了互联网上海量的文本数据。OpenAI和Anthropic都曾被指控未经授权使用受版权保护的书籍、文章训练模型。斯坦福和耶鲁的研究者还发现,Claude在特定条件下会以95.8%的准确率「近乎逐字逐句」输出《哈利波特》等受版权保护的内容。

一位知乎评论说得很直接:「蒸馏自己的大模型叫降本增效,蒸馏别人的大模型叫偷。技术上一样,法律上天壤之别。」

法律层面目前也相当模糊。美国联邦巡回上诉法院的意见认为,蒸馏不违反1976年《版权法》。Anthropic的指控依据的是其服务条款(禁止用Claude的输出训练竞品模型),而非版权法本身。这是商业合同的违反,而非法律意义上的盗窃——至少目前如此。

这件事暴露的,不只是「谁在偷谁」的问题,而是一个更深层的矛盾:在AI知识产权的法律框架还远未成型的今天,谁拥有一个模型的「思考方式」?谁有权利说「你不能学我的推理逻辑」?

没有人有答案。但这场罗生门,正在逼迫整个行业开始认真想这个问题。

 

第六章:蒸馏能做什么,不能做什么

理解了蒸馏的原理之后,有一个很重要的边界需要说清楚:蒸馏不是万能的。

Nathan Lambert在分析这场事件时指出了一个关键点:真正的创新靠的是强化学习(RL),不是蒸馏。  蒸馏是继承,强化学习是创造。

举个具体例子:Mistral的Magistral模型使用纯RL训练(没有任何蒸馏),在数学推理基准AIME 2024上达到了73.6%,并且这种数学推理能力还自发迁移到了编程领域——这种「跨领域迁移」是蒸馏做不到的。DeepSeek R1的核心突破——让模型通过强化学习自发学会「慢思考」和「自我反思」——也是强化学习的功劳,不是蒸馏。

蒸馏能做的,是压缩已有能力、降低部署成本、让小模型继承大模型的推理风格。蒸馏做不到的,是让模型产生超越教师的原创能力。

用一个粗糙的比喻:蒸馏相当于让一个优秀学生认真研读了历届高考状元的所有答题思路,但它不能代替这个学生自己在考场上的应对能力,更不能让他超越历届状元本身。

这也解释了为什么MiniMax抄了1300万次作业,但产品竞争力依然被纯靠实力做出来的对手压着。

 

第七章:这和你有什么关系

说了这么多技术,回到一个更实际的问题:蒸馏这件事,对普通用户和从业者意味着什么?

第一个影响:你用的AI工具正在变得又快又便宜。  当苹果把大模型蒸馏进iPhone芯片,当DeepSeek把推理成本压到GPT-4o的四分之一,受益最直接的是用户。AI能力的民主化,蒸馏是核心推手之一。2015年,在个人电脑上运行一个有意义的语言模型几乎不可能。2026年,一个从671B大模型蒸馏出来的7B小模型,可以在一台性能稍好的笔记本电脑上流畅运行。

第二个影响:你在使用商业AI服务时,对话可能并不像你想象的那么私密。  Anthropic这次事件最让技术圈震惊的,不是「谁蒸馏了谁」,而是Anthropic在声明里透露的能力:他们记录了所有API请求的元数据,通过这些数据可以分析出账户所属的组织,甚至定位到具体的研究人员。并且明确表示,他们会对认定为违规的账户「在API中投毒」,降低其输出质量。这让很多开发者开始重新审视:在使用闭源商业AI服务时,你的使用行为处于多大程度的监控之下?

第三个影响:AI行业的竞争逻辑正在被改写。  过去,做一个顶级AI模型的门槛主要是「钱」——数亿美元的算力投入。蒸馏技术的成熟,让这个门槛开始向「数据质量」和「技术设计」倾斜。能否用更少的资源训出更强的模型,成为了差异化竞争的核心。这对中国AI公司来说,是弯道超车的结构性机会;对头部美国公司来说,是护城河被侵蚀的系统性威胁。

 

写在最后

审美判断,一个AI公司爬了他所有公开作品,用来训练了自己的设计模型。他能索赔吗?

一家律所花了三十年积累了行业最顶尖的合同审查经验,另一家公司调用他们律师的输出,训练了一个合同审查AI。这算不算窃取专业知识?

Anthropic指控别人蒸馏自己的模型,但Anthropic自己的模型,是爬了互联网上数以百万计的普通人写的文章、博客、评论、书籍。那些写作者,从未被问过是否同意。

谁拥有AI的「知识」?这个问题,比我们想象的要难回答得多。

蒸馏,本质上是让知识「流动」的技术。它让一个顶尖模型积累的推理能力,得以低成本地传递给更小、更便宜、更易部署的模型。这让AI能力的获取变得更民主,让普通开发者和边缘设备也能用上强大的AI。

但它同时也提出了这个时代最棘手的问题:在AI和人之间,「学习」和「盗窃」的边界,究竟在哪里?

法院还没有答案。立法者还没有答案。AI公司自己,给出的也不过是服务条款里的几行字。

但有一件事是确定的:这场争论怎么收场,直接决定未来十年AI行业的竞争格局和游戏规则。