系列说明:这是 DeepSeek V4 深度解析系列的第四篇。前三篇我们讲了"是什么"、"为什么能做到"、"工程上怎么跑起来"。这一篇,我们讲最让工程师们兴奋的部分——V4 是怎么学会"干活"的?
🤖 序章:一个周五下午的 Bug
2026年某个周五下午,一位工程师盯着屏幕,表情复杂。
他的任务是修复一个 Bug。
不是普通的 Bug。
是那种藏在 500 个文件里、跨越 3 个微服务、触发条件需要特定的并发时序才能复现的 Bug。
以前,他会先花两个小时读代码,理清调用链,然后再花一个小时写修复方案,然后再花半个小时写测试,然后提 PR,然后等 Review……
这一次,他把整个代码库的上下文喂给了 DeepSeek V4-Pro。
然后他去喝了杯咖啡。
回来的时候,V4 已经:
- 定位了 Bug 的根本原因(一个竞态条件,藏在第 347 个文件里)
- 写出了修复方案(3 处改动,共 47 行代码)
- 生成了 12 个测试用例(覆盖了他没想到的 4 个边界情况)
- 写了一份 PR 描述(比他自己写的更清晰)
整个过程,V4 没有中途放弃,没有在第五步迷失方向,没有在第三个文件之后开始胡说八道。
这不是演示。这是 DeepSeek 内部工程师的真实反馈。
这就是 V4 的 Agent 能力。
但问题是:为什么?
为什么 V4 能做到这件事,而之前的模型做不到?
这背后,不只是参数更多,不只是上下文更长。
而是一套专门为"干活"设计的能力体系。
🎯 一、Agent 能力的本质:不是更聪明,而是更可靠
这是理解 V4 Agent 能力的关键。
很多人以为,Agent 能力强 = 模型更聪明。
这个理解是错的。
一个 Agent 任务,比如"修复这个 Bug",通常包含以下步骤:
- 理解任务目标
- 分析现有代码
- 制定修复计划
- 执行第一步修改
- 验证修改是否正确
- 执行第二步修改
- ……
- 生成最终结果
每一步,模型都需要做出决策。每一步,都可能出错。
一个"更聪明"的模型,可能在第一步就给出更好的分析。
但一个"更可靠"的模型,能在第 8 步之后,仍然保持和第 1 步一致的目标感。
这两件事,是完全不同的能力。
💡 技术深扒:为什么 Agent 任务需要"可靠性"而不只是"智能"?
想象一个有 10 个步骤的 Agent 任务。假设每一步,模型有 95% 的概率做出正确决策。
10 步之后,整个任务成功的概率是:
0.95^10 ≈ 59.9%
如果每步成功率提升到 99%:
0.99^10 ≈ 90.4%
从 60% 到 90%,不是靠"更聪明",而是靠"每一步更可靠"。
对于一个有 50 个步骤的复杂 Agent 任务:
- 95% 每步成功率 → 整体成功率 7.7%
- 99% 每步成功率 → 整体成功率 60.5%
这就是为什么 Agent 能力的核心不是智能,而是可靠性。V4 的 Agent 能力提升,本质上是把每一步的成功率从 95% 提升到了 99%。
那么,V4 是怎么做到"每一步更可靠"的?
答案藏在三个地方:工具调用的稳定性、多步规划的一致性、思考模式的深度。
🔧 二、工具调用:从"会用"到"用好"
工具调用(Tool Use / Function Calling),是 Agent 能力的基础设施。
一个 Agent 要"干活",必须能调用工具:读文件、写代码、执行命令、搜索信息……
但"会调用工具"和"用好工具",是两回事。
💡 技术深扒:工具调用的三个层次
第一层:能调用
模型知道有这个工具,能生成正确的调用格式。大多数现代大模型都能做到。
第二层:调用正确
模型能根据任务需求,选择正确的工具,传入正确的参数。这需要对任务有深刻理解,对工具有准确认知。
第三层:调用高效
模型能在多个工具之间合理编排,避免冗余调用,处理工具返回的错误,在工具失败时有备选方案。这是真正的 Agent 能力。
大多数模型停留在第一层和第二层之间。V4 的目标,是稳定地达到第三层。
V4 在工具调用上的核心改进,体现在两个方面:
第一:格式稳定性。
工具调用需要模型生成结构化的 JSON 格式。听起来简单,但在长上下文、多轮对话的场景下,模型很容易"格式漂移"——生成的 JSON 开始出现多余的字段、缺失必要的参数、或者格式完全错误。V4 通过专项训练,大幅降低了格式漂移的概率。在 Toolathlon 测试中,V4 得分 51.8%,显著高于同级别的开源模型。
第二:错误恢复能力。
工具调用失败了,怎么办?弱模型的做法:重试,或者放弃。V4 的做法:分析失败原因,调整参数,换一种方式重试,或者换一个工具达到同样的目的。这种"错误恢复能力",在真实的 Agent 任务中极其重要。因为真实环境里,工具调用失败是常态,不是异常。
🗺️ 三、多步规划:不在第五步迷失方向
工具调用解决了"每一步怎么做"的问题。
但还有一个更难的问题:在第 20 步的时候,还记得第 1 步的目标吗?
这就是多步规划的挑战。
💡 技术深扒:为什么模型会"迷失方向"?
大模型的生成是自回归的——每生成一个 token,都是基于之前所有 token 的条件概率。
在一个长 Agent 任务里,随着步骤增加,上下文越来越长。模型的"注意力"会逐渐从"原始任务目标"漂移到"最近的操作结果"。
这种现象,叫做 "目标漂移"(Goal Drift) 。
目标漂移的表现:
- 模型开始做一些和原始任务无关的事情
- 模型在某个子任务上过度深入,忘记了整体进度
- 模型生成的结果和原始要求越来越不一致
这是 Agent 任务失败的最常见原因之一。
V4 对抗目标漂移的核心机制,是百万上下文 + 结构化规划的组合。
百万上下文的作用:
原始任务目标、所有中间步骤的结果、当前状态——这些信息都可以完整地保留在上下文里。模型不需要"记住"之前做了什么,因为所有信息都在眼前。这就是为什么百万上下文对 Agent 能力的提升,远比对普通对话的提升更显著。
结构化规划的作用:
V4 在处理复杂 Agent 任务时,会先生成一个显式的"任务计划"——把大任务拆解成有序的子任务,明确每个子任务的目标和验收标准。然后按照这个计划逐步执行,每完成一个子任务就更新计划状态。
💡 技术深扒:结构化规划 vs 直接执行
直接执行模式(弱 Agent):
任务 → 直接开始做 → 做着做着迷失 → 失败
结构化规划模式(V4):
任务 → 生成计划 → 执行子任务1 → 验证 → 执行子任务2 → 验证 → ... → 完成
关键差异:每个子任务完成后,都有一个"验证"步骤,会检查:
- 子任务的结果是否符合预期?
- 是否需要调整后续计划?
- 整体目标是否仍然在轨?
这种"执行-验证-调整"的循环,是 V4 Agent 能力的核心机制之一。
🧠 四、思考模式:给 Agent 一个"慢思考"开关
V4 有一个独特的功能:Thinking Mode(思考模式) 。
在普通模式下,V4 直接生成回答。
在思考模式下,V4 会先进行一段"内部推理",然后再生成最终回答。
这段内部推理,对用户不可见,但它深刻影响了最终输出的质量。
💡 技术深扒:思考模式的工作原理
思考模式,本质上是让模型在生成最终答案之前,先"打草稿"。这个"草稿"包含:
- 对问题的多角度分析
- 可能的解决方案及其优缺点
- 潜在的陷阱和边界情况
- 最终选择的方案及理由
技术上,思考 token 和输出 token 是分开计算的:
- 思考 token:不计入输出费用,但会消耗计算资源
- 输出 token:正常计费
思考强度通过 reasoning_effort 参数控制:high(中等复杂度)或 max(高复杂度 Agent 任务)
官方建议:复杂 Agent 场景,使用思考模式,强度设为 max。
为什么思考模式对 Agent 任务特别重要?
因为 Agent 任务的每一步,都是一个决策点。
在普通模式下,模型"直觉式"地做出决策——快,但容易出错。
在思考模式下,模型"分析式"地做出决策——慢,但更可靠。
对于一个有 20 个步骤的 Agent 任务,每个步骤多花 2 秒思考,总共多花 40 秒。但如果这 40 秒能把整体成功率从 60% 提升到 90%,这个代价完全值得。
💡 技术深扒:思考模式的实际效果
以代码修复任务为例:
普通模式:
- 直接分析代码,给出修复方案
- 速度快,但可能遗漏边界情况
- 适合简单的、有明确答案的 Bug
思考模式(max):
- 先分析 Bug 的根本原因(可能有多个假设)
- 逐一验证每个假设
- 考虑修复方案的副作用
- 生成测试用例验证修复
- 最后给出经过深思熟虑的方案
在 SWE Verified 测试中,思考模式下的 V4 得分约 80.6%,比普通模式高出约 15-20 个百分点。这 15-20 个百分点,就是"慢思考"的价值。
📊 五、SWE Verified 80.6%:这个数字意味着什么?
SWE Verified 是目前最权威的 Agent 编程能力基准测试之一。
它的测试方式是:给模型一个真实的 GitHub Issue,让模型自动修复对应的 Bug,然后用真实的测试套件验证修复是否正确。
这不是"写一段代码"的测试。
这是"在真实的代码库里,找到 Bug,修复它,并通过所有测试"的测试。
💡 技术深扒:SWE Verified 的难度
SWE Verified 的测试集来自真实的开源项目 Issue,包括 Django、Flask 等 Web 框架,NumPy、Pandas 等数据科学库,各种工具库和基础设施项目。
人类工程师的参考水平:
- 初级工程师:约 20-30%(需要大量时间和提示)
- 中级工程师:约 60-70%(正常工作效率)
- 高级工程师:约 85-95%(熟悉代码库的情况下)
V4 的 80.6%,已经达到了中高级工程师的水平。更重要的是:V4 完成每个任务的时间,是人类工程师的 1/10 到 1/100。
80.6% 这个数字,放在行业里是什么水平?
| 模型 | SWE Verified 得分 | 备注 |
|---|---|---|
| DeepSeek V4-Pro | ≈80.6% | 开源模型最佳 |
| Claude Opus 4.6(思考模式) | 约 80-85% | 闭源顶级 |
| GPT-5.4 | 约 75-80% | 接近 V4 |
| Claude Sonnet 4.5 | 约 70-75% | V4 已超越 |
V4 已经和闭源顶级模型站在同一梯队。
而且,V4 是开源的。
这意味着:任何人都可以在自己的服务器上部署一个"中高级工程师级别"的 AI 编程助手,不需要向任何公司付费。
这件事的意义,比 80.6% 这个数字本身更大。
🛠️ 六、主流 Agent 框架的专项适配
V4 的 Agent 能力提升,不只是模型本身的进化。
还有一个重要的因素:针对主流 Agent 框架的专项优化。
官方明确提到,V4 针对以下框架进行了适配和优化:
- Claude Code:Anthropic 的命令行 AI 编程工具
- OpenClaw:开源的 AI Agent 框架
- OpenCode:开源的 AI 编程助手
- CodeBuddy:腾讯云的 AI 编程助手
💡 技术深扒:什么是"针对框架的专项优化"?
每个 Agent 框架,都有自己的"对话协议"——它们用特定的方式和模型交互:
- 特定的 System Prompt 格式
- 特定的工具调用格式
- 特定的多轮对话结构
- 特定的错误处理方式
如果模型没有针对这些协议进行优化,就会出现"格式不兼容"的问题,导致工具调用格式框架解析不了、模型在特定对话结构下表现不稳定等。
V4 的专项优化,就是在训练数据中加入了大量这些框架的真实使用案例,让模型"学会"如何在这些框架里工作。效果:在这些框架里使用 V4,比使用其他模型更稳定、更高效。
这种专项适配,带来了一个有趣的现象:
V4 在特定框架里的表现,比在通用场景下更好。
就像一个工程师,在熟悉的代码库里工作,比在陌生的代码库里工作效率更高。V4 "熟悉"了这些框架的工作方式,所以在这些框架里表现更出色。
🔄 七、DeepSeek 内部的真实替换
官方有一句话,值得反复读:
"DeepSeek-V4 已成为公司内部员工使用的 Agentic Coding 模型,据评测反馈使用体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式。"
这不是营销话术。
这是一家 AI 公司,用自己的产品替换了竞争对手的产品,然后公开说出来。
这件事的信息量,远超任何一个基准测试数字。
💡 技术深扒:内部替换意味着什么?
DeepSeek 的工程师,每天都在用 AI 工具写代码。他们是最挑剔的用户——因为他们知道 AI 的边界在哪里,知道什么时候 AI 在胡说,知道什么样的输出是真正有用的。
如果他们选择用 V4 替换 Claude Sonnet 4.5,这意味着:在真实的日常工作场景中,V4 的实际表现已经超过了 Sonnet 4.5。
这种"内部狗粮"(Dogfooding)的验证,比任何第三方评测都更有说服力。
但官方也诚实地说了: "与 Opus 4.6 思考模式仍存在一定差距。"
这个差距,主要体现在:极度复杂的多步推理任务、需要深度领域知识的专业任务、高度模糊需要大量创造性思维的任务。
V4 已经很强,但还没有到"全面超越"的程度。这种诚实,反而让人更信任这个评价。
🌊 八、一个更大的问题:Agent 能力的天花板在哪里?
V4 的 Agent 能力,已经达到了"中高级工程师"的水平。
那么,下一步是什么?
高级工程师?首席工程师?还是超越人类工程师?
💡 技术深扒:Agent 能力的三个阶段
阶段一:工具执行者(当前大多数模型)
- 能执行明确的指令
- 需要人类提供详细的步骤
- 出错后需要人类介入
阶段二:任务完成者(V4 当前水平)
- 能理解高层次的任务目标
- 能自主规划执行步骤
- 能处理大多数错误和异常
- 需要人类验收最终结果
阶段三:自主协作者(未来方向)
- 能主动发现问题,不需要人类指派任务
- 能跨系统、跨工具协调复杂工作流
- 能在不确定的环境中做出合理判断
- 人类只需要设定目标,不需要监督过程
V4 处于阶段二的高端。阶段三还需要解决:长期记忆(如何在多个会话之间保持上下文)、主动性(如何让模型主动发现问题)、自我校正(如何在没有人类反馈的情况下纠正错误)。
这些问题,V4 还没有完全解决。但它已经比任何之前的模型,走得更近了。
这让我想起了一个关于围棋的故事。
2016年,AlphaGo 击败了李世石。很多人以为,这意味着围棋已经"被解决了"。
但围棋职业选手们发现了一件有趣的事:AlphaGo 的某些棋步,是人类从未想到过的。
不是因为人类不够聪明,而是因为人类被几千年的棋谱"训练"了——我们的思维被已有的模式所限制。AlphaGo 没有这种限制。它从零开始学习,发现了人类从未探索过的棋路。
V4 的 Agent 能力,可能也在走这条路。
它不是在模仿人类工程师的工作方式。它在用自己的方式,解决人类工程师面对的问题。
有时候,它的方式让人类工程师看了之后说:
"我怎么没想到这个?"
🎬 九、写在最后:觉醒的代价
V4 的 Agent 能力觉醒,不是一夜之间发生的。
它是百万上下文(能看到整个代码库)+ 工具调用稳定性(每一步都不出错)+ 思考模式(每个决策都经过深思)+ 专项训练(针对真实 Agent 场景)的综合结果。
缺少任何一个,这种觉醒都不会发生。
但这种觉醒,也带来了一个让人不安的问题:
如果 AI 能做中高级工程师的工作,那中高级工程师的价值在哪里?
这个问题,我没有答案。
但我知道,这个问题正在被越来越多的工程师认真思考。
刘慈欣在《超新星纪元》里写过一句话:
"孩子们接管了世界,不是因为他们更聪明,而是因为他们没有包袱。"
V4 的 Agent 能力,某种程度上也是这个逻辑。它不是因为比人类工程师更聪明,才能修复那个藏在 500 个文件里的 Bug。而是因为它没有人类工程师的"包袱"——不会疲惫,不会分心,不会因为快下班了就想着先提个 PR 明天再说。
它只是,一直在做这件事。
直到做完。
这种专注,才是 Agent 能力真正的秘密。