4大短板暴露,但它为何仍能超越OpenAI o1?DeepSeek R1背后真相竟是……

365 阅读5分钟

最近,AI界又火了!DeepSeek推出了一款新的推理模型R1,直接对标OpenAI的明星产品o1

这可是个大新闻!要知道,o1一直是业界的标杆,DeepSeek R1凭什么敢挑战它?

今天我们就来扒一扒背后的秘密

虽然DeepSeek R1很厉害,但也不是完美的。它有几个小缺点,我们先来说说:

1. 多语言能力不足

DeepSeek R1主要专注于中文和英文,其他语言就有点不太灵光了。例如,即使查询使用的是非中文和非英文的语言,模型也可能会使用英文进行推理和回复。

此外,在多语言混合输入的测试中,模型的表现也不够理想。比如,在C-Eval(中文评估)中,未对齐的语言模型表现仅为86.5%,而对齐后的DeepSeek-R1提升至91.8%,但语言混合问题仍未完全解决。

2. 通用能力受限

尽管DeepSeek R1在数学、编程和推理任务上表现出色,但在一些通用任务上,如函数调用、复杂角色扮演和JSON输出等任务上,表现不如DeepSeek-V3。

此外,在软件工程任务中,DeepSeek R1的提升有限,主要原因是数据稀缺、长反馈延迟以及工具链依赖。比如,在SWE-bench评测中,DeepSeek-R1的“Resolved”率仅为49.2%,接近OpenAI o1-1217的48.9%,但仍未达到DeepSeek-V3的水平。

3. 提示工程敏感性

DeepSeek R1对提示非常敏感,少样本提示反而会降低其性能。模型更适合零样本设置,因为它通过强化学习自主学会解题逻辑,不依赖临时示例。比如,在零样本和少样本提示的对比测试中,零样本设置下DeepSeek R1的表现更为出色,而少样本提示可能导致模型想太多,从而降低效率。

4. 输出可读性问题

DeepSeek R1-Zero在早期开发中展现了强大的推理能力,但在一些复杂任务中,还是有点表达不清。比如,在AIME数学竞赛测试中,DeepSeek R1-Zero的pass@1分数从15.6%提升至71.0%,但输出的可读性和语言混杂问题仍然存在。

虽然有这些小缺点,但DeepSeek R1仍然在某些方面超越了OpenAI o1,这背后的秘密武器是什么呢?

我们先来看看官方给的一个实验图。可以看到DeepSeek R1在部分指标中超越了OpenAI o1。

图片

那起主要有几点原因:

1. 纯强化学习的突破

DeepSeek R1完全依靠强化学习进行训练,不需要像以前的模型那样依赖大量的人工标注数据,大大降低了成本,还提高了推理能力。这就好比让它自己“摸索”学习方法,而不是死记硬背

2. 高性价比与开源优势

DeepSeek R1的API定价仅为OpenAI o1的五十分之一,输入token仅需0.55美元/百万,输出token仅需2.19美元/百万。同时,DeepSeek R1完全开源,可以免费使用、修改和开发。这简直是业界良心!

3. 强大的推理能力与多任务通用性

DeepSeek R1在多个基准测试中表现优异,甚至超越了OpenAI o1。例如,在AIME 2024数学竞赛中,DeepSeek R1取得了79.8%的成绩,略高于OpenAI o1的79.2%。在MATH-500测试中,DeepSeek R1达到了97.3%的高分,显著优于其他模型。

此外,DeepSeek R1在编程竞赛Codeforces上的Elo评级达到了2029,超过了96.3%的人类参赛者。在非STEM任务中,如AlpacaEval 2.0写作任务,DeepSeek R1也表现出色,胜率达到87.6%,而OpenAI o1的相关数据未公开。

4. 独特的训练策略与技术细节

DeepSeek R1采用了多阶段训练策略,包括冷启动、强化学习、拒绝采样与监督微调,以及全场景强化学习。例如,冷启动阶段引入了数千条高质量数据,显著提升了模型的可读性和多语言处理能力。

此外,DeepSeek R1还采用了群组相对策略优化(GRPO)算法。这种创新的训练方法不仅提升了模型性能,还使其推理能力具有强大的可迁移性。

5. 模型蒸馏与生态赋能

DeepSeek R1不仅开源了660B参数的完整模型,还提供了6个蒸馏小模型,参数规模从1.5B到70B不等。这些小模型在性能上不仅超越了GPT-4o、Claude 3.5 Sonnet和QwQ-32B,甚至与OpenAI o1-mini相当,这进一步降低了AI的使用门槛。

DeepSeek R1不仅仅是一个技术产品,更是一种开放、合作和创新的理念的体现,也代表了中国AI力量的崛起和对全球AI发展的积极贡献。它以开源的姿态拥抱全球开发者,构建了一个蓬勃发展的AI生态。

我们有理由相信,在开源社区的共同努力下,DeepSeek R1将不断突破技术边界,为人工智能的未来带来更多惊喜

如果觉得不错,随手点个赞吧,如果想第一时间收到推送,也可以关注下我~谢谢你看我的文章,我们,下次再见。