今天,DeepSeek 正式发文把 V3.1 推上前台,前两天还只是在群里简单通知一下,即便还未公布模型卡,DeepSeek V3.1就已经在Hugging Face的趋势榜上排到了第四。
But连官方文章都没有,搞得用户云里雾里不知道 V3.1 具体更新了些什么
而就在今天下午,官方终于发布了V3.1相关更新文章👇
DeepSeek-V3.1 发布,迈向 Agent 时代的第一步
这一版的主题很鲜明:把“思考模式(Reasoning)”与“普通对话”合到一套模型里,再把工具调用与智能体(Agent)能力一并补强。
而说起DeepSeek,我们不免会想到前不久上线,且成为 ChatGPT 的默认引擎 —— OpenAI GPT-5 这个强有力的对手了。
那两者路线不同、侧重点不同——到底怎么选?下面把最重要的变化、对比与上手路径一次说清。
一、V3.1 本次升级要点
-
混合推理架构:V3.1 兼容“思考/非思考”两种聊天模板;API 侧直接映射为
deepseek-reasoner(思考)与deepseek-chat(非思考)。官网更新日志已确认两者均已升级为 V3.1。 -
模板与上下文:开源权重的
tokenizer_config.json显示model_max_length为 131072(约 128K);新版 chat template 引入<think>片段与更清晰的工具调用占位 -
Agent 能力显著增强:后训练优化带来工具使用与智能体任务的大幅提升;在代码与搜索类智能体评测上,V3.1 的分数整体高于前代,例如编码方面SWE-bench Verified 66.0%, 数学方面AIME 2025 88.4%(详细参数见官文)
-
工具/函数调用: 非思考模式支持 Function Calling 与严格 JSON;
-
Agent 生态更顺手:新增 Anthropic API 兼容层,可把 DeepSeek 挂进 Claude Code 流程里,无缝融入现有工程链路。
App/网页端也同步了“深度思考”开关,可在界面上自由切换模式,最明显变化就是,DeepSeek 在官方 APP 和网页版上,从“深度思考(R1)”中删除了“R1”。
二、GPT-5 的关键信息(官方口径)
-
上下文:400K 窗口、128K 最大输出
-
编码与推理:官方给出 SWE-bench Verified 74.9%、Aider-Polyglot 88%,并强调在同等任务上较 o3 更省输出 token 与工具调用
-
数学:AIME 2025 94.6%(无工具)
-
工具智能:能稳定串并联多次工具调用,长链路任务更稳。
-
价格(API):输入 0.125 ,输出 $10;另有 mini / nano 低价档。
官网参考文档:
三、「共同基准」正面对比
说明:仅纳入 双方均有官方/模型卡数值 的基准;DeepSeek 若区分思考/非思考,取**更强的“思考”**版本一并列示。
| 任务/基准 | DeepSeek-V3.1(Think) | GPT-5 | 备注 |
|---|---|---|---|
| SWE-bench Verified(真实软件缺陷修复) | 66.0% (V3.1-NonThinking,Agent 模式) | 74.9% | DS 官方以内部 Agent 框架跑分;仍可视作同一任务族对比 |
| Aider-Polyglot(多语种代码编辑) | 76.3% | 88% | 官方均给出明确百分比 |
| AIME 2025(数学) | 88.4% | 94.6% (无工具) | 同为 Pass@1 |
对比结论
-
编码&修复:在 SWE-bench Verified 和 Aider-Polyglot 上,GPT-5 领先 6.9–11.7 个百分点,属于稳定领先。
-
数学推理:AIME 2025 上 GPT-5 领先 6.2 个百分点,也是明确领先。
因此,仅看双方共同公开的权威基准,GPT-5 整体领先一个梯级;DeepSeek-V3.1 在成本/开源/可控方面具现实优势,工程落地性强。
四、更多关键官方数据对比
| 维度 | DeepSeek-V3.1 | GPT-5 |
|---|---|---|
| 模型形态 | 同一模型双模板:chat(非思考)/reasoner(思考),前端“深度思考”开关 | 统一系统 + 自动路由;可显式切换到 Thinking |
| 上下文 | 128K(开源权重配置);API 以定价/模型页为准 | 400K 上下文,128K 最大输出 |
| 工具/函数调用 | 非思考:支持;思考:不直接支持(传 tools 会回落到 chat) | 强化的并行/串行工具链、鲁棒错误处理、长链检索优化 |
| 结构化输出 | JSON Output(严格 JSON 返回) | 函数调用 + 结构化输出,生态配套完善 |
| Agent 生态 | 新增 Anthropic API 兼容(Claude Code 直连) | ChatGPT 原生生态(搜索/文件/图像/任务),路线更“全集成” |
| 开源/可控 | 权重开源(Base/后训),可私有化/微调 | 闭源商用,胜在产品整合与服务保障 |
| 价格带(API) | 价目将 9月6日凌晨变更并取消夜间折扣 | GPT-5:input $1.25 / output $10(百万tokens),有 mini/nano 梯度 |
| 适配场景 | 私有化可控、成本敏感、需要深度定制的 Agent/应用 | 统一入口追求最强通用生产力、复杂多工具链路任务 |
五、给不同人群的选择建议
-
要“最强通用生产力/端内一体化” :优先GPT-5:400K 窗口 + 更强的编码&数学 + 事实性显著提升,复杂多工具链路更稳。
-
要“开源可控/私有化/成本敏感” : 优先DeepSeek-V3.1:128K 权重、模板清晰、Function Calling/JSON/Anthropic 兼容,工程改造友好。
-
团队落地:推荐混合路由——日常与私有任务走 V3.1,超长上下文/关键链路切 GPT-5,兼顾成本与效果。
- 做搜索/代码类智能体:两者都能做;V3.1 在公开卡片上的 Agent 指标很亮眼,GPT-5 胜在并行工具与稳定性。
六、两种模型体验方式
更详尽的介绍可看原文
最后有话说
- 只看共同权威基准:GPT-5 明确领先;
- 看工程落地与可控性:DeepSeek-V3.1 更省、更开源、更好改;
- 真正实用的答案:把两者接在一起,用在各自最擅长的地方。