最近,antirez(Salvatore Sanfilippo,Redis 作者)发布了一些内容,核心就是反驳一个言论: “中国模型之所以强,主要是因为通过 API 蒸馏了美国模型。”
他认为这种说法在机器学习原理上站不住脚,甚至是 “marketing from US labs” 或对 ML 的误解。
antirez 的意思是:有些人把中国开源/闭源模型的进步,简单归因于“偷偷用 GPT/Claude API 生成数据来蒸馏”,这在严格的机器学习意义上是不成立的。
实际上也是大家对于定于的不一致,这个后面就可以理解。
在他看来,API 蒸馏在严格意义上不可能(白盒/软蒸馏),因为:
- 真正的蒸馏需要大量访问 teacher 的完整 logits(概率分布)、Chain-of-Thought 推理轨迹、内部表示等
- 商业 API 只返回最终文本,完全拿不到这些内部信息
- 他把 API 蒸馏比作「只看到复杂曲面上的几个点,就想复刻整个曲面」,这在在数学上接近科幻
所以白盒蒸馏闭源项目基本是不可能的,记住,是白盒(软的),因为白盒蒸需要让 student 不仅输出一样,还要内部“思考过程”和知识表示尽量接近 teacher。
其次是,黑盒 (硬蒸)能做,但作用有限 :
- 用 API 生成数据做 SFT(Alpaca/Vicuna 那类),确实可以改善「回复风格」、填补狭窄知识 gap、或者让模型更会 follow 特定格式
- 但是无法创造 frontier-level 的通用能力,真正强大的底层能力来自海量 pretraining(万亿 token 级别的数据 + 巨大 compute)
- 他明确说,即使你有 teacher 生成的 trace,没有 CoT 等内部信息,也只是 “tuning the style or filling very small knowledge gaps at best”
除非你只是用来刷基准,刷榜单,这就可以蒸得榜单数据好看,但是实战还是拉跨。
再者,即使有完整模型访问,蒸馏 frontier 模型也极难:
- 很多 frontier 中国模型已经开源,但包括欧洲实验室在内的很多团队,依然很难训练出对齐它们水平的模型
- 这说明蒸馏/复刻不是“有数据就能轻松复制”
所以他觉得,中国模型比美国模型落后的原因,真正的差距更多来自 compute deficit(算力获取限制),而不是单纯的技术抄袭或蒸馏,他不否认中国模型目前的实际能力差距,但坚决反对把这种实力主要归因于“蒸馏美国模型” 。
不过,实际上现在黑盒蒸馏可以规模化,也能有效迁移部分任务能力、输出风格、格式遵循和一定程度的推理模式,所以被用的其实还是挺多的,但确实没办法真的复制 teacher 的能力 。
当然,也有说反对的说 “用原始 LLM responses 做 distillation 是完全可以的,只需要 API 访问权限”,并举例 Alpaca 和 Vicuna 就是这么训练出来的 。
这种方式不需要 teacher 暴露任何内部 logits 或 hidden states,只需要 teacher 生成的最终文本 responses ,但是效果肯定好不到哪里去。
说回蒸馏,其实 antirez 想表达的意思里,有部分是想说 “蒸馏”这个词目前有点被严重滥用和误解了,大家口头说的“蒸馏”,但是经常把两种完全不同的技术混在一起说:
- Hard Distillation(硬蒸馏 /黑盒) :只用 teacher 生成的离散 token 序列(responses)训练 student,用标准交叉熵损失, 类似前面说的 Alpaca 和 Vicuna 采用的方式
- Soft Distillation(软蒸馏/白盒) :需要 teacher 的完整概率分布(logits),通过 KL 散度让 student 模仿 teacher 的软标签,这需要白盒访问或 API 暴露 logits,目前主流商业 API 基本不提供
实际上苹果这次发布 Apple Foundation Models 就是一个 distillation-based refinement ,但是更接近硬蒸馏(不完全) ,因为苹果说的是,在 post-training / refinement 阶段,使用了 Gemini frontier models 的 outputs 进行精炼,也就是用 Gemini frontier model 生成的 outputs(responses)来精炼/对齐自己的模型 。
另外 2026 年的论文《Memorization Dynamics in Knowledge Distillation for Language Models》(arxiv.org/pdf/2601.15394)也明确区分了这两个的不同,也提到了目前 hard distillation 在黑盒 API 场景下是可行的常用方法,只是会比 soft distillation 继承更多 teacher 特有的记忆样本。
所以如果要说硬蒸馏行不行?肯定是可以的,只是他的可控程度,成本和效果肯定差很多。
姚顺宇大佬在访谈里也提到过 “硬蒸/ 聪明的蒸”在实践策略层面的差异,在工程视角上:
-
简单粗暴:直接让 Claude/GPT 大量生成 token,然后一股脑塞进自己模型里强制训练,大佬的评价是 “商业上也不是很道德,治理上来说也比较愚蠢” ,说明公司“没有想明白也没有方向”,因为没有数据筛选、没有策略、没有把 teacher 当成工具,只是当成“数据打印机”
-
聪明的蒸:把强模型当成辅助工具和评价者,有策略、有目的性地融入自己的训练系统,比如
- 数据筛选高质量 synthetic data、用 teacher 做 reward model / verifier、multi-agent 协作生成数据、真实数据 ,配合 synthetic 数据混合、迭代式 self-improvement 等
简单来说就是:
- 粗暴硬蒸 = 低水平重复(just dump data)
- 聪明的蒸 = 高水平工程(build a smart data flywheel + training system)
当时 antirez 认为不行大部分基于白盒/软蒸馏,他觉得中国模型的真实进步主要来自自己的算力投入、数据工程和研究工作,而不是通过 API 就能轻松“蒸馏”出 frontier 能力,如果把后者当成主要解释,既违反机器学习基本原理,也低估了真正构建强模型的难度。
所以讨论出现分歧的原因也在这里,虽然都叫“蒸馏”,但是白盒/软蒸馏被技术圈认为才是真正的蒸馏,而黑盒/硬蒸馏这种只用 teacher 生成的文本 outputs 做 SFT 的做法叫做 Response Distillation 。
所以蒸馏也分专业领域和大众领域,所以这也是存在分歧的原因,大概区别就是:
-
Soft Distillation(软蒸馏 / 白盒)
- 让 student 去模仿 teacher 的完整概率分布(logits),不只是学最终答案
- Teacher 输出不是硬标签(one-hot),而是经过 temperature scaling 的软概率分布
- 学生能学到“暗知识”(dark knowledge):为什么 teacher 认为 A 的概率是 0.7、B 是 0.2、C 是 0.1,而不是简单告诉它是 A
当然,严格的说,soft distillation 的“软”主要是概率分布,不是自然语言思考过程,老师不是真的告诉学生“因为……”,而是告诉学生:“在所有候选 token/class 里,我对 A、B、C 的概率分别是多少。”
-
Hard Distillation(硬蒸馏 / 黑盒)
- 只用 teacher 生成的离散 token 序列(最终输出文本),用标准交叉熵训练 student
- 相当于把 teacher 当成“老师傅”生成 pseudo-label,然后 student 像正常 SFT 一样学这些数据
说人话就是:
- Soft Distillation(软蒸馏 / 白盒)老师不仅写答案,还说出思考过程和信心:“我算出来17的概率85%,因为……”,学生学到深层思考和暗知识,更聪明
- Hard Distillation(硬蒸馏 / 黑盒) 老师只在黑板上写最终答案:“10+7=17”,学生反复抄答案,学会最终结果和格式,但不知道老师是怎么算的。
也就是一个抄思考过程,一个抄答案.
不过日常里大家其实也不会理解那么多,也不会区分那么多,所以反正我说蒸馏的时候,也不怎么区分这个,所以很多时候也会被怼被阴阳,不过不重要,重要的是你怎么看?
只是我也是同意的,纯硬蒸是做不出来 DeepSeek 的,这一点 antirez 毫无争议是对的。