4大短板暴露，但它为何仍能超越OpenAI o1？DeepSeek R1背后真相竟是……DeepSeek推出了一款新的推

最近，AI界又火了！DeepSeek推出了一款新的推理模型R1，直接对标OpenAI的明星产品o1。

这可是个大新闻！要知道，o1一直是业界的标杆，DeepSeek R1凭什么敢挑战它？

今天我们就来扒一扒背后的秘密。

虽然DeepSeek R1很厉害，但也不是完美的。它有几个小缺点，我们先来说说：

1. 多语言能力不足

DeepSeek R1主要专注于中文和英文，其他语言就有点不太灵光了。例如，即使查询使用的是非中文和非英文的语言，模型也可能会使用英文进行推理和回复。

此外，在多语言混合输入的测试中，模型的表现也不够理想。比如，在C-Eval（中文评估）中，未对齐的语言模型表现仅为86.5%，而对齐后的DeepSeek-R1提升至91.8%，但语言混合问题仍未完全解决。

2. 通用能力受限

尽管DeepSeek R1在数学、编程和推理任务上表现出色，但在一些通用任务上，如函数调用、复杂角色扮演和JSON输出等任务上，表现不如DeepSeek-V3。

此外，在软件工程任务中，DeepSeek R1的提升有限，主要原因是数据稀缺、长反馈延迟以及工具链依赖。比如，在SWE-bench评测中，DeepSeek-R1的“Resolved”率仅为49.2%，接近OpenAI o1-1217的48.9%，但仍未达到DeepSeek-V3的水平。

3. 提示工程敏感性

DeepSeek R1对提示非常敏感，少样本提示反而会降低其性能。模型更适合零样本设置，因为它通过强化学习自主学会解题逻辑，不依赖临时示例。比如，在零样本和少样本提示的对比测试中，零样本设置下DeepSeek R1的表现更为出色，而少样本提示可能导致模型想太多，从而降低效率。

4. 输出可读性问题

DeepSeek R1-Zero在早期开发中展现了强大的推理能力，但在一些复杂任务中，还是有点表达不清。比如，在AIME数学竞赛测试中，DeepSeek R1-Zero的pass@1分数从15.6%提升至71.0%，但输出的可读性和语言混杂问题仍然存在。

虽然有这些小缺点，但DeepSeek R1仍然在某些方面超越了OpenAI o1，这背后的秘密武器是什么呢？

我们先来看看官方给的一个实验图。可以看到DeepSeek R1在部分指标中超越了OpenAI o1。

那起主要有几点原因：

1. 纯强化学习的突破

DeepSeek R1完全依靠强化学习进行训练，不需要像以前的模型那样依赖大量的人工标注数据，大大降低了成本，还提高了推理能力。这就好比让它自己“摸索”学习方法，而不是死记硬背。

2. 高性价比与开源优势

DeepSeek R1的API定价仅为OpenAI o1的五十分之一，输入token仅需0.55美元/百万，输出token仅需2.19美元/百万。同时，DeepSeek R1完全开源，可以免费使用、修改和开发。这简直是业界良心！

3. 强大的推理能力与多任务通用性

DeepSeek R1在多个基准测试中表现优异，甚至超越了OpenAI o1。例如，在AIME 2024数学竞赛中，DeepSeek R1取得了79.8%的成绩，略高于OpenAI o1的79.2%。在MATH-500测试中，DeepSeek R1达到了97.3%的高分，显著优于其他模型。

此外，DeepSeek R1在编程竞赛Codeforces上的Elo评级达到了2029，超过了96.3%的人类参赛者。在非STEM任务中，如AlpacaEval 2.0写作任务，DeepSeek R1也表现出色，胜率达到87.6%，而OpenAI o1的相关数据未公开。

4. 独特的训练策略与技术细节

DeepSeek R1采用了多阶段训练策略，包括冷启动、强化学习、拒绝采样与监督微调，以及全场景强化学习。例如，冷启动阶段引入了数千条高质量数据，显著提升了模型的可读性和多语言处理能力。

此外，DeepSeek R1还采用了群组相对策略优化（GRPO）算法。这种创新的训练方法不仅提升了模型性能，还使其推理能力具有强大的可迁移性。

5. 模型蒸馏与生态赋能

DeepSeek R1不仅开源了660B参数的完整模型，还提供了6个蒸馏小模型，参数规模从1.5B到70B不等。这些小模型在性能上不仅超越了GPT-4o、Claude 3.5 Sonnet和QwQ-32B，甚至与OpenAI o1-mini相当，这进一步降低了AI的使用门槛。

DeepSeek R1不仅仅是一个技术产品，更是一种开放、合作和创新的理念的体现，也代表了中国AI力量的崛起和对全球AI发展的积极贡献。它以开源的姿态拥抱全球开发者，构建了一个蓬勃发展的AI生态。

我们有理由相信，在开源社区的共同努力下，DeepSeek R1将不断突破技术边界，为人工智能的未来带来更多惊喜！

如果觉得不错，随手点个赞吧，如果想第一时间收到推送，也可以关注下我～谢谢你看我的文章，我们，下次再见。