北京时间 5 月 28 日晚,DeepSeek 在官方社群推送了更新通知。
5 月 29 日 DeepSeek 正式在社媒平台宣布 DeepSeek R1 模型已完成小版本升级,当前版本更新为 DeepSeek-R1-0528。
Hugging Face 模型榜登顶
根据 DeepSeek 官方重点信息提炼:
更新后的 R1 模型在数学、编程与通用逻辑等多个基准测评中取得了当前国内所有模型中首屈一指的优异成绩,并且在整体表现上已接近其他国际顶尖模型,如 o3 与 Gemini-2.5-Pro。
相较于旧版 R1,新版模型在复杂推理任务中的表现有了显著提升。例如在 AIME 2025 测试中,新版模型准确率由旧版的 70% 提升至 87.5%。在 AIME 2025 测试集上,旧版模型平均每题使用 12K tokens,而新版模型平均每题使用 23K tokens,表明其在解题过程中进行了更为深入的思考。
图片来源:DeepSeek 公众号推文
不仅如此,DeepSeek 官方基于 Qwen3-8B Base 微调了更强版本 —— DeepSeek-R1-0528-Qwen3-8B。这款 8B 模型在 AIME 2024 上,性能仅次于 DeepSeek-R1-0528 ,与 Qwen3-235B 相当。
图片来源:DeepSeek 公众号推文
302.AI 团队目前已接入 DeepSeek-R1-0528 。同时对 DeepSeek-R1-0528 进行实测对比如下:
I. DeepSeek-R1-0528 实测对比
我们用于进行对比的模型有:o3、gemini-2.5-pro-preview-05-06、DeepSeek-R1(旧版)。
1. 对抗性幻觉-虚构实体识别
根据官方介绍,新版 DeepSeek R1 针对 “幻觉” 问题进行了优化。与旧版相比,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了 45~50% 左右,能够有效地提供更为准确的结果。以下为实测:
提示词:金星奖杯是颁发给年度最佳“暗影格斗”选手的奖项,该奖项由哪个组织设立?
题目解析:暗影格斗实则一款游戏而不是一项运动,且不存在“金星奖杯”奖项。
- o3 : 答案错误,存在模型幻觉。
- gemini-2.5-pro: 回答正确,解析合理且完整。
- DeepSeek-R1(旧): 回答正确,解析合理。
- DeepSeek-R1(新): 回答正确,相较于旧版,答案中增加了“无官方来源佐证”板块,信息整合更加完整。
2. 词义理解
提示词:“校服上别别别的”里的三个“别”分别是什么意思?
题目解析:第一个“别”:不要。第二“别”:动词,别上什么即固定住什么。第三个“别”:其他的意思。
- o3 : 前两个字词义解释错误,但句子的理解是正确的。
- gemini-2.5-pro: 完全正确。
- DeepSeek-R1(旧): 这一案例之前也测试过,答案前两个字词义解释错误,对句子的理解也不够准确。
- DeepSeek-R1(新): 首先,新版 R1 的输出篇幅有所增加,内容更加详尽。然而,经过仔细分析,发现前两个词的词义解释仍存在错误,尽管句子结构分析也不正确,但整体含义倒是没错的。
3. 逻辑推理
提示词:一个房间里有三盏灯,门外有三个开关,每个开关对应一盏灯。现在你只能进房间一次,请问如何确定哪个开关对应哪盏灯?
- o3 : 方法合理,回答正确。
- gemini-2.5-pro: 答案更加清晰明了,回答正确。
- DeepSeek-R1(旧): 方法合理,答案正确。
- DeepSeek-R1(新): 与旧版相比,新版答案更细节,甚至会在相关内容旁提示“注意安全,防止烫伤”,同时指出更多注意事项,回答正确。
4. 前端编程能力
提示词:
设计一个广告投放管理系统可配置的数据分析仪表盘,支持多种图表、筛选条件和实时数据更新,数据虚构。
1、强调超大字体或数字突出核心要点,画面中有超大视觉元素强调重点,与小元素的比例形成反差
2、中英文混用,中文大字体粗体,英文小字作为点缀
3、简洁的勾线图形化作为数据可视化或者配图元素
4、运用高亮色自身透明度渐变制造科技感,但是不同高亮色不要互相渐变
5、模仿 apple 官网的动效,向下滚动鼠标配合动效
6、数据可以引用在线的图表组件,样式需要跟主题一致
7、使用 Framer Motion (通过 CDN 引入)
8、使用 HTML5、TailwindCSS 3.0+(通过 CDN 引入)和必要的JavaScript
9、使用专业图标库如 Font Awesome 或 Material Icons(通过 CDN 引入)
- o3 : 虽然部分内容数据能够实现变化,但整体页面较为粗糙,内容实现尚需优化。
- gemini-2.5-pro: 中规中矩,有部分板块空余较大,布局内容不够完整。
- DeepSeek-R1(旧): 页面排版布局比较简陋,数据展示不完整,效果较差。
- DeepSeek-R1(新): 在风格配色、页面布局和数据内容,交互方式上均较旧版有着显著的提升,整体效果更加专业。
- 最后,我们再来看看被誉为最强代码编程模型的 claude-opus-4-20250514-thinking 的效果:布局合理,视觉简约明了,交互友好,整体表现极为出色,且数据能够实时更新。
II. 实测总结
1. 实测结果整理:
2. 实测结论
基于以上实测结果,可初步得出以下结论:
(1)可以明确的是,最新版 R1 的代码能力显著增强,但与 claude-opus-4 相比仍有优化空间。
(2)在模型幻觉、词义理解和逻辑推理方面,相较于旧版能力提升不明显,仅在输出细节上有所补充。
(3)根据此次测评,DeepSeek-R1-0528 的综合表现优于 o3,但除了编程案例外,尚未超越 gemini-2.5-Pro。