DeepSeek-V4-Pro 用了哪些新技术2026 年 4 月 24 日，DeepSeek 放出了 DeepSeek

2026 年 4 月 24 日，DeepSeek 放出了 DeepSeek-V4 预览版。很多人第一眼看到的是两个数字：1M 上下文，1.6T 总参数。再往下一滑，是一串很容易把人看麻的词：CSA、HCA、mHC、Muon、GRPO、on-policy distillation。

如果只是把这些名词挨个翻译一遍，信息量其实不大。V4-Pro 更值得看的地方，在于它把长上下文、训练稳定性、后训练整合和 Agent 工程接口放进了同一套系统里。

先把两个容易混淆的点放在前面。

第一，DeepSeek-V4-Pro 是公开权重本体，1.6T 总参数、49B 激活参数、1M 上下文。第二，DeepSeek-V4-Pro-Max 不是另一套权重，它是同一模型在更高 reasoning effort 下的运行模式。这个区分很重要，因为很多横评表里把 Pro 和 Pro-Max 摆成两行，乍看很像两个独立模型。

长上下文开始变得可用

大模型行业已经把“支持超长上下文”宣传了很久，但真到工程现场，事情往往没那么乐观。上下文窗口写成 256K、512K、1M，不代表你真能让模型在这么长的轨迹里稳定工作。Agent 任务尤其残酷：工具调用一轮接一轮，终端输出和网页内容不断往上下文里塞，token 数很快就冲上去。到了这个长度，真正卡人的往往是单 token 推理 FLOPs 和 KV cache。

DeepSeek-V4-Pro 这一轮的很多关键改动，基本都围着这件事展开。

官方材料给出的主轴是 Hybrid Attention Architecture，也就是把两种注意力交替用在不同层里：Compressed Sparse Attention (CSA) 和 Heavily Compressed Attention (HCA)。

先看 CSA。它不是从零开始凭空冒出来的。按照官方说明，CSA 继承了 DeepSeek-V3.2 里 DSA 的思路，但把处理对象换成了先做过序列压缩的块。简单说，V3.2 干的是“在一长串历史 token 里，快速找到最值得看的那部分”；V4 的 CSA 则是先把 KV 沿序列维压缩四倍，再用一个轻量 indexer 去挑 top-k 压缩块。这样做的直接好处很朴素：索引空间本身变小了，稀疏检索的成本也就跟着降下来。

但 DeepSeek 没停在这里。它又补了一个 HCA，把压缩比直接拉到 128x。压到这个程度之后，序列已经短到可以重新做稠密注意力了，于是 HCA 干脆不做稀疏选择，而是“对高度压缩后的历史做一次便宜的全局扫视”。如果把 CSA 理解成“精细搜索”，那 HCA 更像“低分辨率总览”。

这套设计的妙处，不在于某一个部件看起来多花哨，而在于它承认了一件常识：不是每一层都需要一样的注意力分辨率。长轨迹推理里，有些层更适合精确回忆局部关键片段，有些层只需要保留足够粗的全局轮廓。V4-Pro 用交替堆叠的方式把这两件事拆开，没有硬让同一种注意力负责全部工作。

从公开数字看，这套组合拳非常激进。官方 README 写得很直接：在 1M 上下文下，V4-Pro 的单 token 推理 FLOPs 只有 DeepSeek-V3.2 的 27%，KV cache 只有 10%。Hugging Face 对技术报告的解读还给了一个更直观的说法：如果和常见的 8-head GQA + BF16 KV 架构相比，V4 的 KV cache 大约只需要对方的 2%。

这也是 V4 比较有意思的一点。它没有停留在“再讲一遍稀疏注意力”，而是把压缩、稀疏选择、分层调度和精度管理放进了一条为百万上下文服务的推理路径里。换句话说，V4 处理的是 Agent 跑到一半时，显存和延迟会不会一起失控。

残差连接的这次改动

大部分模型报告都喜欢把版面给注意力、MoE 和 RL。DeepSeek-V4-Pro 这一版在残差连接上也花了不少力气。

这里的关键词是 mHC，全称 Manifold-Constrained Hyper-Connections。它的上游是 2024 年那篇 Hyper-Connections。后者的想法是把残差流做宽，让不同深度的特征之间有更复杂的混合方式。这样做的好处是，网络有机会学到更灵活的跨层交互，而不是一直守着单一路径的 identity path。

问题也出在这里。

残差连接一直被保留下来，一个重要原因是它保住了 identity mapping。可以把它理解成，哪怕中间层学得不够理想，至少还有一条相对稳定的路径能让信号和梯度穿过去。Hyper-Connections 一旦把连接拓扑放开，模型表达力会变强，但这条路径也会变得没那么稳。mHC 这篇论文的核心，就是给这种更复杂的超连接结构加上流形约束，把 identity mapping 的稳定性尽量找回来。

V4-Pro 采用 mHC，能看出 DeepSeek 这次不只是想在注意力和参数规模上做文章。它也在处理一个更底层的问题：模型越深、结构越复杂之后，信息还能不能稳定地往前走。

这部分不太像 headline，但分量并不轻。因为百万上下文、超大规模 MoE 和高强度后训练叠在一起之后，训练系统对稳定性的容忍度会很低。很多时候，问题不在某个 benchmark 没涨，而在 loss 曲线突然失稳，或者大 batch 下收敛效率明显变差。V4 把 mHC 拉进主干架构，更像是在给整套系统补一层稳定性余量。

`Muon` 在训练侧的作用

如果说 mHC 解决的是“结构别太野”，那 Muon 瞄准的就是另一个老问题：这么大的模型，到底怎么更快、更稳地训下去。

Muon 这套东西最早被很多人注意到，不是靠一篇传统论文，而是 Keller Jordan 的那篇博客。它的核心想法可以粗略理解成：不要再把隐藏层的二维权重矩阵，当成一堆彼此独立的标量去更新，而要尊重它作为“矩阵”的几何结构，对更新方向做矩阵级别的处理。后续像 Practical Efficiency of Muon for Pretraining 这样的论文，开始把这件事说得更工程一些：Muon 在大 batch 预训练里，确实有机会把 compute-time tradeoff 往前推。

DeepSeek 在 V4 里公开写明使用 Muon optimizer，这不只是“换了一个 optimizer”。更大的信号是，V4 不只是架构层面的升级，它连预训练优化器这层都动了，而且愿意把这个选择写进正式材料。

这通常说明，团队已经不是在做局部打补丁，而是在通盘调整训练系统。因为优化器不是那种随手改一行配置就能安稳上线的组件。尤其是这种万亿级总参数、MoE、长上下文并存的模型，优化器一旦选错，后面很多超参数、稳定性策略、吞吐目标都会跟着乱。

所以 Muon 在 V4 里的分量，可能比它在公开讨论里的热度更高一些。它不一定最适合做标题，但很可能是支撑前两块创新能够落地的关键拼图。

后训练的路线

V4 README 里有一段话值得停一下：后训练采用两阶段范式，先分别培养不同领域的专家能力，再通过 on-policy distillation 把这些能力整合回统一模型。

这里比较容易读错的是 domain-specific experts 这个词。它在这里说的不是 MoE 里的 expert，更像是面向不同任务域单独训练出来的专精分支，可能偏代码、偏数学、偏工具使用、偏世界知识。也就是说，DeepSeek 没有把所有后训练目标放进同一轮同步优化里，而是先让不同能力各自长出来，再考虑怎么把它们揉回一个统一模型。

这种做法和近两年的训练经验比较一致。

一口气把所有能力塞进同一轮高强度 RL，通常会出两个问题。一个是能力互相打架，模型今天学会了更强的代码规划，明天聊天风格开始变形；另一个是分布错配，teacher、student、rollout 数据和最终推理轨迹不是一回事。on-policy distillation 的作用，就在于尽量减少这种“训练时看到的轨迹”和“真正上线时模型自己会走出来的轨迹”之间的裂缝。

这里还得补一句：DeepSeek 的公开材料并没有把 V4 内部 on-policy distillation 的完整实现细节全摊开，所以不太适合直接写成“它就是某某论文的一比一复现”。更稳妥的说法是，V4 明确采用了这条方法论，而且把它用在“统一模型整合”这个关键环节上。

至于 GRPO，它在 DeepSeek 体系里已经不算陌生。早在 DeepSeekMath，GRPO 就被拿来替代更重的 PPO 风格做法，用更省内存的方式推数学推理。V4 继续沿用 GRPO 做领域专家训练，不算意外；变化主要在于，它后面接了一个“整合回统一模型”的蒸馏阶段。这个组合比单独再上一轮 RL 更有信息量。

Agent 相关改动

如果只看榜单，很多人会把 V4-Pro 归纳成“开源里很强的一档”。这当然没问题，只是还不足以概括它这一代的重点。V4 更值得注意的是，它在一些很具体、也很工程化的地方做了不少调整。

第一个是思维链在工具调用场景里的保留策略。

官方 encoding 文档和 Hugging Face 的解读都强调了一点：如果对话里发生了工具调用，V4 会保留 reasoning 内容，哪怕后面来了新的 user turn，也不会像普通聊天那样把前面的 thinking 丢掉。这个改动看着不大，但放在 Agent 场景里比较实用。因为一个长流程任务往往不是“用户说一句，模型回一句”这么干净，它可能是用户补一条要求，模型继续沿着前面的工具轨迹往下做。推理痕迹如果被硬截断，模型就得重新在长上下文里捞状态，稳定性会明显变差。

第二个是 DSML。

V4 没沿用“JSON 套字符串”的工具调用格式，用的是带专用 token 的 XML 风格 schema。这个选择更偏工程考虑。模型在生成带引号、转义符、嵌套对象的时候，本来就容易犯低级错误。把字符串参数和结构化参数明确分开，再给工具调用单独的标记 token，本质上是在给解析器和模型同时减压。

第三个是 DSec。按照 Hugging Face 对技术报告的总结，DeepSeek 为 Agent RL rollout 搭了一套统一沙箱底座，后面能接函数调用、容器、microVM 和完整虚拟机。这个点容易被忽略，因为它不像架构图那样显眼。但如果没有一套能大规模并发、还能做轨迹重放的环境，很多 Agent RL 训练很难推得动。换句话说，V4 不只是把模型训成“会调工具”，它也把训练工具这件事本身当成了基础设施问题。

一条很清楚的判断线

把整套公开材料放在一起看，有一条线索比较清楚：DeepSeek 这次是按“Agent 是一种长时间运行的程序”来设计 V4 的。

按这个前提回头看，V4-Pro 的很多设计就比较顺了。

为什么要把注意力做成 CSA + HCA 的混合体？因为 Agent 的上下文不是一段优雅的论文摘要，而是一条越滚越长的工作日志。为什么要在残差连接上动 mHC？因为系统一复杂，稳定传播会比纸面表达力更值钱。为什么要用 Muon？因为这么大的模型，训练效率和稳定性不是附属问题。为什么后训练要先分头练、再蒸馏整合？因为代码、数学、工具使用、通识问答，本来就不是一种梯度能同时处理好的东西。为什么连 tool-call schema 和 rollout sandbox 都要重做？因为 Agent 不是聊天界面里多挂几个 function call 那么简单。

这也是 V4-Pro 和很多“再发一版更强模型”之间一个比较明显的差别。它当然也在追 benchmark，但用力的方向更偏向把模型从“会答题”往“能长时间干活”上推。

还要继续看的几件事

当然，V4 还有不少地方要继续看。

一个现实问题是，DSML 这种协议能不能顺利融进更广泛的第三方 Agent 框架。如果生态不跟上，模型本身的协议优势会被打折。另一个问题是，CSA/HCA 这种高度依赖实现细节的长上下文路径，离开 DeepSeek 自己的推理内核之后，还能保留多少收益。还有后训练这边，公开材料已经告诉我们它用了 GRPO + on-policy distillation，但每一部分到底贡献了多少，还得等更多复现和消融出现。

至于 mHC，后面也可以继续观察它的外部扩散情况。如果接下来半年到一年里，别的团队也开始认真研究“残差拓扑”而不是只卷注意力，那 V4 这次比较有价值的影响，可能不在榜单，而在研究方向。

DeepSeek-V4-Pro 用了哪些新技术