2026 年 4 月 24 日,DeepSeek 放出了 DeepSeek-V4 预览版。很多人第一眼看到的是两个数字:1M 上下文,1.6T 总参数。再往下一滑,是一串很容易把人看麻的词:CSA、HCA、mHC、Muon、GRPO、on-policy distillation。
如果只是把这些名词挨个翻译一遍,信息量其实不大。V4-Pro 更值得看的地方,在于它把长上下文、训练稳定性、后训练整合和 Agent 工程接口放进了同一套系统里。
先把两个容易混淆的点放在前面。
第一,DeepSeek-V4-Pro 是公开权重本体,1.6T 总参数、49B 激活参数、1M 上下文。第二,DeepSeek-V4-Pro-Max 不是另一套权重,它是同一模型在更高 reasoning effort 下的运行模式。这个区分很重要,因为很多横评表里把 Pro 和 Pro-Max 摆成两行,乍看很像两个独立模型。
长上下文开始变得可用
大模型行业已经把“支持超长上下文”宣传了很久,但真到工程现场,事情往往没那么乐观。上下文窗口写成 256K、512K、1M,不代表你真能让模型在这么长的轨迹里稳定工作。Agent 任务尤其残酷:工具调用一轮接一轮,终端输出和网页内容不断往上下文里塞,token 数很快就冲上去。到了这个长度,真正卡人的往往是单 token 推理 FLOPs 和 KV cache。
DeepSeek-V4-Pro 这一轮的很多关键改动,基本都围着这件事展开。
官方材料给出的主轴是 Hybrid Attention Architecture,也就是把两种注意力交替用在不同层里:Compressed Sparse Attention (CSA) 和 Heavily Compressed Attention (HCA)。
先看 CSA。它不是从零开始凭空冒出来的。按照官方说明,CSA 继承了 DeepSeek-V3.2 里 DSA 的思路,但把处理对象换成了先做过序列压缩的块。简单说,V3.2 干的是“在一长串历史 token 里,快速找到最值得看的那部分”;V4 的 CSA 则是先把 KV 沿序列维压缩四倍,再用一个轻量 indexer 去挑 top-k 压缩块。这样做的直接好处很朴素:索引空间本身变小了,稀疏检索的成本也就跟着降下来。
但 DeepSeek 没停在这里。它又补了一个 HCA,把压缩比直接拉到 128x。压到这个程度之后,序列已经短到可以重新做稠密注意力了,于是 HCA 干脆不做稀疏选择,而是“对高度压缩后的历史做一次便宜的全局扫视”。如果把 CSA 理解成“精细搜索”,那 HCA 更像“低分辨率总览”。
这套设计的妙处,不在于某一个部件看起来多花哨,而在于它承认了一件常识:不是每一层都需要一样的注意力分辨率。长轨迹推理里,有些层更适合精确回忆局部关键片段,有些层只需要保留足够粗的全局轮廓。V4-Pro 用交替堆叠的方式把这两件事拆开,没有硬让同一种注意力负责全部工作。
从公开数字看,这套组合拳非常激进。官方 README 写得很直接:在 1M 上下文下,V4-Pro 的单 token 推理 FLOPs 只有 DeepSeek-V3.2 的 27%,KV cache 只有 10%。Hugging Face 对技术报告的解读还给了一个更直观的说法:如果和常见的 8-head GQA + BF16 KV 架构相比,V4 的 KV cache 大约只需要对方的 2%。
这也是 V4 比较有意思的一点。它没有停留在“再讲一遍稀疏注意力”,而是把压缩、稀疏选择、分层调度和精度管理放进了一条为百万上下文服务的推理路径里。换句话说,V4 处理的是 Agent 跑到一半时,显存和延迟会不会一起失控。
残差连接的这次改动
大部分模型报告都喜欢把版面给注意力、MoE 和 RL。DeepSeek-V4-Pro 这一版在残差连接上也花了不少力气。
这里的关键词是 mHC,全称 Manifold-Constrained Hyper-Connections。它的上游是 2024 年那篇 Hyper-Connections。后者的想法是把残差流做宽,让不同深度的特征之间有更复杂的混合方式。这样做的好处是,网络有机会学到更灵活的跨层交互,而不是一直守着单一路径的 identity path。
问题也出在这里。
残差连接一直被保留下来,一个重要原因是它保住了 identity mapping。可以把它理解成,哪怕中间层学得不够理想,至少还有一条相对稳定的路径能让信号和梯度穿过去。Hyper-Connections 一旦把连接拓扑放开,模型表达力会变强,但这条路径也会变得没那么稳。mHC 这篇论文的核心,就是给这种更复杂的超连接结构加上流形约束,把 identity mapping 的稳定性尽量找回来。
V4-Pro 采用 mHC,能看出 DeepSeek 这次不只是想在注意力和参数规模上做文章。它也在处理一个更底层的问题:模型越深、结构越复杂之后,信息还能不能稳定地往前走。
这部分不太像 headline,但分量并不轻。因为百万上下文、超大规模 MoE 和高强度后训练叠在一起之后,训练系统对稳定性的容忍度会很低。很多时候,问题不在某个 benchmark 没涨,而在 loss 曲线突然失稳,或者大 batch 下收敛效率明显变差。V4 把 mHC 拉进主干架构,更像是在给整套系统补一层稳定性余量。
Muon 在训练侧的作用
如果说 mHC 解决的是“结构别太野”,那 Muon 瞄准的就是另一个老问题:这么大的模型,到底怎么更快、更稳地训下去。
Muon 这套东西最早被很多人注意到,不是靠一篇传统论文,而是 Keller Jordan 的那篇博客。它的核心想法可以粗略理解成:不要再把隐藏层的二维权重矩阵,当成一堆彼此独立的标量去更新,而要尊重它作为“矩阵”的几何结构,对更新方向做矩阵级别的处理。后续像 Practical Efficiency of Muon for Pretraining 这样的论文,开始把这件事说得更工程一些:Muon 在大 batch 预训练里,确实有机会把 compute-time tradeoff 往前推。
DeepSeek 在 V4 里公开写明使用 Muon optimizer,这不只是“换了一个 optimizer”。更大的信号是,V4 不只是架构层面的升级,它连预训练优化器这层都动了,而且愿意把这个选择写进正式材料。
这通常说明,团队已经不是在做局部打补丁,而是在通盘调整训练系统。因为优化器不是那种随手改一行配置就能安稳上线的组件。尤其是这种万亿级总参数、MoE、长上下文并存的模型,优化器一旦选错,后面很多超参数、稳定性策略、吞吐目标都会跟着乱。
所以 Muon 在 V4 里的分量,可能比它在公开讨论里的热度更高一些。它不一定最适合做标题,但很可能是支撑前两块创新能够落地的关键拼图。
后训练的路线
V4 README 里有一段话值得停一下:后训练采用两阶段范式,先分别培养不同领域的专家能力,再通过 on-policy distillation 把这些能力整合回统一模型。
这里比较容易读错的是 domain-specific experts 这个词。它在这里说的不是 MoE 里的 expert,更像是面向不同任务域单独训练出来的专精分支,可能偏代码、偏数学、偏工具使用、偏世界知识。也就是说,DeepSeek 没有把所有后训练目标放进同一轮同步优化里,而是先让不同能力各自长出来,再考虑怎么把它们揉回一个统一模型。
这种做法和近两年的训练经验比较一致。
一口气把所有能力塞进同一轮高强度 RL,通常会出两个问题。一个是能力互相打架,模型今天学会了更强的代码规划,明天聊天风格开始变形;另一个是分布错配,teacher、student、rollout 数据和最终推理轨迹不是一回事。on-policy distillation 的作用,就在于尽量减少这种“训练时看到的轨迹”和“真正上线时模型自己会走出来的轨迹”之间的裂缝。
这里还得补一句:DeepSeek 的公开材料并没有把 V4 内部 on-policy distillation 的完整实现细节全摊开,所以不太适合直接写成“它就是某某论文的一比一复现”。更稳妥的说法是,V4 明确采用了这条方法论,而且把它用在“统一模型整合”这个关键环节上。
至于 GRPO,它在 DeepSeek 体系里已经不算陌生。早在 DeepSeekMath,GRPO 就被拿来替代更重的 PPO 风格做法,用更省内存的方式推数学推理。V4 继续沿用 GRPO 做领域专家训练,不算意外;变化主要在于,它后面接了一个“整合回统一模型”的蒸馏阶段。这个组合比单独再上一轮 RL 更有信息量。
Agent 相关改动
如果只看榜单,很多人会把 V4-Pro 归纳成“开源里很强的一档”。这当然没问题,只是还不足以概括它这一代的重点。V4 更值得注意的是,它在一些很具体、也很工程化的地方做了不少调整。
第一个是思维链在工具调用场景里的保留策略。
官方 encoding 文档和 Hugging Face 的解读都强调了一点:如果对话里发生了工具调用,V4 会保留 reasoning 内容,哪怕后面来了新的 user turn,也不会像普通聊天那样把前面的 thinking 丢掉。这个改动看着不大,但放在 Agent 场景里比较实用。因为一个长流程任务往往不是“用户说一句,模型回一句”这么干净,它可能是用户补一条要求,模型继续沿着前面的工具轨迹往下做。推理痕迹如果被硬截断,模型就得重新在长上下文里捞状态,稳定性会明显变差。
第二个是 DSML。
V4 没沿用“JSON 套字符串”的工具调用格式,用的是带专用 token 的 XML 风格 schema。这个选择更偏工程考虑。模型在生成带引号、转义符、嵌套对象的时候,本来就容易犯低级错误。把字符串参数和结构化参数明确分开,再给工具调用单独的标记 token,本质上是在给解析器和模型同时减压。
第三个是 DSec。按照 Hugging Face 对技术报告的总结,DeepSeek 为 Agent RL rollout 搭了一套统一沙箱底座,后面能接函数调用、容器、microVM 和完整虚拟机。这个点容易被忽略,因为它不像架构图那样显眼。但如果没有一套能大规模并发、还能做轨迹重放的环境,很多 Agent RL 训练很难推得动。换句话说,V4 不只是把模型训成“会调工具”,它也把训练工具这件事本身当成了基础设施问题。
一条很清楚的判断线
把整套公开材料放在一起看,有一条线索比较清楚:DeepSeek 这次是按“Agent 是一种长时间运行的程序”来设计 V4 的。
按这个前提回头看,V4-Pro 的很多设计就比较顺了。
为什么要把注意力做成 CSA + HCA 的混合体?因为 Agent 的上下文不是一段优雅的论文摘要,而是一条越滚越长的工作日志。为什么要在残差连接上动 mHC?因为系统一复杂,稳定传播会比纸面表达力更值钱。为什么要用 Muon?因为这么大的模型,训练效率和稳定性不是附属问题。为什么后训练要先分头练、再蒸馏整合?因为代码、数学、工具使用、通识问答,本来就不是一种梯度能同时处理好的东西。为什么连 tool-call schema 和 rollout sandbox 都要重做?因为 Agent 不是聊天界面里多挂几个 function call 那么简单。
这也是 V4-Pro 和很多“再发一版更强模型”之间一个比较明显的差别。它当然也在追 benchmark,但用力的方向更偏向把模型从“会答题”往“能长时间干活”上推。
还要继续看的几件事
当然,V4 还有不少地方要继续看。
一个现实问题是,DSML 这种协议能不能顺利融进更广泛的第三方 Agent 框架。如果生态不跟上,模型本身的协议优势会被打折。另一个问题是,CSA/HCA 这种高度依赖实现细节的长上下文路径,离开 DeepSeek 自己的推理内核之后,还能保留多少收益。还有后训练这边,公开材料已经告诉我们它用了 GRPO + on-policy distillation,但每一部分到底贡献了多少,还得等更多复现和消融出现。
至于 mHC,后面也可以继续观察它的外部扩散情况。如果接下来半年到一年里,别的团队也开始认真研究“残差拓扑”而不是只卷注意力,那 V4 这次比较有价值的影响,可能不在榜单,而在研究方向。
参考资料
- DeepSeek-V4 技术报告
- DeepSeek-V4-Pro 官方 README
- DeepSeek 官方发布说明,2026-04-24
- Hugging Face: DeepSeek-V4: a million-token context that agents can actually use
- DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models
- Hyper-Connections
- mHC: Manifold-Constrained Hyper-Connections
- DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
- Practical Efficiency of Muon for Pretraining
- On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes
- Keller Jordan: Muon: An optimizer for hidden layers in neural networks
- Thinking Machines: On-Policy Distillation