当有用户询问DeepSeek“你是谁”时,它却回答自己是“ChatGPT”,这场误会引发全球AI社区对国产大模型训练方法的强烈质疑,甚至有人断言它是GPT的“复刻品”。
这一事件发生的几个月后,深度求索公司创始人梁文锋站在《自然》杂志封面前,向全球科研界详细披露了DeepSeek-R1模型的技术细节。这家公司通过纯强化学习技术,仅用29.4万美元的训练成本,就打造出性能接近GPT-4的推理模型。
模型开源后在Hugging Face上的下载量迅速突破1090万次,成为全球最受欢迎的开源推理模型。深度求索用透明的研究方法,回应了所有关于技术依赖的质疑。
01 争议缘起
DeepSeek模型发布初期,一些用户发现模型行为异常,引发了关于其与GPT技术关系的广泛质疑。这些观察成为后续争议的导火索。
2025年初,用户与DeepSeek-V3模型交互时发现,当询问“你是谁”这类基础问题时,模型有时会给出“我是ChatGPT”的回应。更具体的是,当被问及API使用方法时,它会提供与OpenAI API几乎相同的说明,甚至复述GPT-4特有的笑话。
这种现象迅速引发社区讨论,许多开发者和研究者开始质疑DeepSeek是否直接使用GPT生成的文本进行训练。当时业内普遍存在一种做法:为了节省成本和时间,一些团队会使用ChatGPT等现有模型的输出作为训练数据。
互联网上AI生成内容的泛滥也加剧了这一问题。据欧盟执法机构预测,到2026年,网络内容中可能有90%是人工合成的。这种情况下,从训练数据中彻底过滤AI生成内容变得异常困难。
面对这些质疑,深度求索公司最初保持了沉默,更加深了外界的猜测。直到几个月后,他们才通过《自然》杂志的封面论文,系统回应了这些争议。
02 官方回应
面对外界质疑,深度求索公司通过权威学术渠道做出了系统性回应,明确解释了模型训练与GPT的关系,并详细说明了自身技术路线。
2025年9月,深度求索在《自然》杂志发表的封面论文中,首次全面披露了DeepSeek-R1的训练方法。作为首个通过严格同行评议的主流大语言模型,这一发布具有里程碑意义。
公司明确否认了使用OpenAI模型输出进行训练的质疑。在长达64页的同行评审文件中,DeepSeek解释称,DeepSeek-V3 Base使用的数据全部来自互联网,虽然可能包含GPT-4生成的结果,但绝非有意而为之,更没有专门的蒸馏环节。
深度求索团队进一步澄清,他们承认使用了蒸馏技术,但仅限于将自研的6710亿参数大模型压缩至70亿参数的过程。公司首席科学家王晓斌用了一个形象的比喻:“蒸馏过程好比将教授的知识传授给学生,但前提是——教授必须是我们自己培养的。”
为防止基准测试数据污染,团队对DeepSeek-R1的预训练和后训练数据都实施了全面的去污染措施。这些措施确保了训练数据的纯净性,减少了外部模型输出对训练过程的影响。
| 主要质疑点 | 深度求索官方回应 | 证据与说明 |
|---|---|---|
| 是否使用GPT输出训练 | 明确否认,数据来自互联网,无意使用GPT输出 | 64页同行评审文件详细说明数据来源 |
| 是否采用知识蒸馏 | 仅用于自研大模型到小模型的压缩,不依赖外部模型 | “教授必须是我们自己培养的”比喻 |
| 训练数据污染问题 | 实施全面去污染措施,防止基准测试数据污染 | 严格的数据清洗流程与技术细节披露 |
| 模型混淆身份现象 | 互联网数据中难以完全避免AI生成内容 | 承认互联网数据中可能存在GPT生成内容 |
03 技术路线
与GPT系列依赖人类反馈微调不同,深度求索开创了一条全新的技术路径,通过纯强化学习方法激发模型推理能力,这一创新使其训练方式与GPT存在本质区别。
DeepSeek-R1的核心创新在于采用“纯强化学习”方法。与传统方法需要大量人工标注不同,R1通过奖励模型达到正确答案的行为来学习推理策略。
团队抛弃了行业通用的人类反馈微调(RLHF),改用纯数学奖励机制。模型在解数学题的过程中,答对复杂题目获得正反馈,出现逻辑错误则被惩罚降分,通过反复试错自主构建推理能力。
这一技术突破的重大意义在于,它证明了大语言模型的推理能力可通过纯强化学习来提升,从而减少增强性能所需的人类输入工作量。
团队报告称,DeepSeek-R1包含一个在人类监督下的深入训练阶段,以优化推理过程。这种训练方法不仅提高了效率,还大幅降低了训练成本。
在评估测试中,DeepSeek-R1-Zero和DeepSeek-R1在数学基准测试中的得分分别达到77.9%和79.8%,在编程竞赛及STEM领域研究生水平问题上同样表现优异。
04 成本对比
深度求索不仅在技术上开辟了新路径,更以令人震惊的低成本实现了高性能模型的开发,这种成本优势成为其独立性的有力证明。
DeepSeek-R1的完整训练成本仅29.4万美元(约210万元人民币)。这个数字即使加上约600万美元的基础模型成本,也远低于OpenAI、谷歌训练AI的成本。
低成本训练的秘诀在于强化学习奖励机制的精妙设计。模型在解数学题过程中自主迭代优化,无需昂贵的人工标注。这种自动化训练方法大大减少了人力成本。
国产算力适配也带来了显著的成本优势。同步推出的DeepSeek-R1 V3.1版本成为全球首个支持FP8低精度格式的开源大模型。这一创新使其可直接部署在华为昇腾、寒武纪等国产AI芯片上,推理能效提升300%。
银河证券AI芯片分析师李哲指出:“FP8适配将加速国产芯片与大模型协同,中国AI算力生态迎来拐点。”
低成本与高性能的结合,使DeepSeek模型在开源后迅速获得全球开发者青睐。这种经济高效的技术路径为大模型研发提供了新的可能性。
05 技术创新
除了训练方法上的革新,深度求索在模型架构上也持续创新,这些技术创新进一步拉开了与GPT系列的技术距离,证明了其独立研发能力。
团队在DeepSeek-V3.2中引入了创新的稀疏注意力机制(DSA),显著提高了处理长文本任务的效率。这一机制将计算复杂性从传统的O(L²)降低到O(Lk),其中L是上下文长度,k是常数。
这种架构创新直接解决了长上下文场景下的计算效率问题。与DeepSeek-V3.1中的MLA相比,DSA在长上下文场景中实现了显著的端到端加速,所需的计算量要少得多。
在后训练阶段,团队采用了专家蒸馏技术。他们训练了一组专门针对特定领域的专家模型:编码、数学运算和几个代理任务,然后利用这些专家模型生成合成训练数据,用于微调主模型。
2026年初推出的DeepSeek-V3.2-Speciale版本在多项推理基准测试中表现甚至优于GPT-5,与Gemini-3.0-Pro相当。这一成就进一步证明了中国大模型研发已跻身世界顶尖梯队。
06 行业影响
深度求索对模型训练与GPT关系的澄清,不仅消除了外界质疑,更为全球AI发展提供了新的范式,其开源透明的方法论对整个行业产生了深远影响。
此前,GPT-4、Claude等主流模型均未经过学术同行评审,训练方法被诟病为“黑箱操作”。DeepSeek此次不仅公开全部122页技术报告,更提供可复现代码与训练日志,为行业设立了新标准。
这种透明度对抑制AI行业过度炒作具有重要意义。《自然》杂志指出,随着AI技术日渐普及,大模型厂商们无法验证的宣传可能对社会带来真实风险。
作为全球首个通过同行评审的主流大语言模型,DeepSeek-R1的论文发表标志着中国在大模型基础研究领域取得重要突破。《自然》杂志评价其为“里程碑式论文”,并用“创造历史”表达赞赏和肯定。
开源策略也加速了技术普及。DeepSeek模型在Hugging Face下载量突破1090万次,成为全球开发者调用量最高的开源推理模型。这种开放共享的精神推动了全球AI研发社区的进步。
从模型“报错家门”的尴尬,到登上《自然》封面的辉煌,深度求索用9个月时间完成了一场漂亮的技术自证。训练成本仅29.4万美元的DeepSeek-R1,不仅性能接近GPT-4,更以开源透明的姿态重塑了大模型研发的行业标准。
如今,AI模型能力正在快速演进,从通用型向专业化方向发展。单一的“全能模型”正在被复合的“模型路由”策略所取代。对开发者和企业而言,关键在于构建灵活、可扩展的模型调用架构,以适应技术的快速迭代。