DeepSeek V4系列：384个专家的会议🏛️ 序章：一个关于组织的问题假设你要组建一支团队，完成一项极其复杂的

系列说明：这是 DeepSeek V4 深度解析系列的第五篇。前四篇我们讲了"是什么"、"技术原理"、"工程挑战"、"Agent能力"。这一篇，我们讲藏在这一切背后的架构哲学——为什么 V4 要用 384 个专家？

🏛️ 序章：一个关于组织的问题

假设你要组建一支团队，完成一项极其复杂的任务。

你有两个选择。

选择一：招一个全才。

这个人什么都会——写代码、做设计、谈客户、管项目。每一件事，他都能做。但每一件事，他都只能做到"还不错"。

选择二：招一支专才团队。

程序员只写代码，设计师只做设计，销售只谈客户，项目经理只管项目。每个人在自己的领域，都是顶尖的。

但问题来了：

你需要一个机制，让这些专才在正确的时候，做正确的事。

否则，专才团队会变成一盘散沙。

这个问题，不只是管理学的问题。

它也是大模型架构的核心问题。

DeepSeek V4 的答案，是 MoE。

Mixture of Experts。混合专家模型。

1.6万亿参数，384个专家，每次只激活6个。

这不是一个参数配置。

这是一种哲学。

🧠 一、为什么"全才模型"走到了尽头？

在讲 MoE 之前，先讲一个困境。

传统的大模型，是"全才模型"。所有的参数，在处理每一个 token 时，都会被激活。

你问它一道数学题，所有参数都参与计算。你让它写一首诗，所有参数也都参与计算。

这听起来很合理——毕竟，参数越多，模型越强。

但这里有一个隐藏的问题：

当你问数学题的时候，那些"专门负责写诗"的参数，在做什么？

它们也在计算。但它们的计算，对这道数学题没有任何帮助。

这是一种巨大的浪费。

💡 技术深扒：全才模型的计算浪费

想象一个有 1000 个神经元的网络。每次处理一个输入，所有 1000 个神经元都要激活、计算、传递信号。

但实际上，对于一道数学题，可能只有 200 个神经元是真正有用的。其余 800 个神经元的计算，是纯粹的浪费。

随着模型越来越大，这种浪费越来越严重。GPT-4 有约 1.8 万亿参数（据估计）。如果每次推理都激活所有参数，成本是天文数字。

这就是为什么"全才模型"走到了一定规模，就很难再往前走了。

所以，研究者们开始思考：

能不能让模型在处理不同任务时，只激活"相关"的参数？

这个想法，就是 MoE 的起点。

🔬 二、MoE 的基本原理：专才团队的运作方式

MoE 的核心思想，用一句话说：

把模型的参数分成若干组（专家），每次只激活其中几组。

具体来说，MoE 架构包含两个关键组件：

专家（Experts） ：每个专家是一个独立的神经网络模块，有自己的参数。

路由器（Router） ：一个小型网络，负责决定每个 token 应该交给哪些专家处理。

💡 技术深扒：MoE 的工作流程

想象一个有 8 个专家的 MoE 层，每次激活 2 个。当一个 token 进入这一层时：

第一步：路由器分析这个 token 的特征，计算它与每个专家的"匹配度"。

第二步：选出匹配度最高的 2 个专家。

第三步：这个 token 只经过这 2 个专家的计算。

第四步：把 2 个专家的输出加权合并，作为这一层的最终输出。其余 6 个专家，完全不参与计算。

结果：

总参数量 = 8 个专家的参数之和（很大）
每次推理的计算量 = 2 个专家的计算量（很小）

这就是 MoE 的魔法：用大参数量换取小计算量。

这个设计，解决了全才模型的核心矛盾：

模型可以"知道"很多东西（大参数量），但每次只"用到"相关的知识（小计算量）。

就像一个图书馆。图书馆里有几百万本书（大参数量）。但你每次来，只借几本（小计算量）。图书馆的价值，不在于你每次都读完所有书，而在于当你需要某本书的时候，它一定在那里。

📊 三、从 V3 到 V4：专家数量的暴增

理解了 MoE 的基本原理，再来看 V4 的配置，就会有一种震撼感。

DeepSeek V3：约 256 个专家/层，激活 8 个

DeepSeek V4-Pro：384 个专家/层，激活 6 个

这两个数字，藏着一个深刻的设计哲学变化。

💡 技术深扒：专家数量增加，激活数量减少，意味着什么？

专家数量：256 → 384（增加 50%）

更多的专家，意味着更细粒度的知识分工。每个专家负责的"领域"更窄，但在自己的领域里更专精。就像一家公司从 256 人扩张到 384 人，但每个人的职责更加专一。

激活数量：8 → 6（减少 25%）

更少的激活，意味着每次推理的计算量更小。但这里有一个反直觉的地方：激活更少的专家，为什么效果反而更好？

答案是：专家更多、更专精，所以每个专家的"命中率"更高。激活 6 个高度专精的专家，比激活 8 个泛化的专家，效果更好。这就是"专才团队"的优势。

让我们用数字来感受这个变化：

维度	DeepSeek V3	DeepSeek V4-Pro	变化
总参数	≈660B	1600B	+142%
激活参数	37B	49B	+32%
专家数/层	≈256	384	+50%
激活专家数	8	6	-25%
激活率	≈3.1%	1.6%	-48%

激活率从 3.1% 降到 1.6%。

这意味着：V4 的总参数是 V3 的 2.4 倍，但每次推理激活的参数比例，只有 V3 的一半。

更大的知识库，更精准的检索，更低的计算成本。三件事同时发生，是 MoE 架构的核心价值。

🎯 四、路由器：那个决定一切的黑盒

MoE 架构里，最神秘的部分，是路由器。

它是整个系统的"大脑"——决定每个 token 交给哪些专家。

路由器做错了，整个模型就废了。

但路由器是怎么工作的？它怎么知道，一个关于量子力学的问题，应该交给"物理专家"而不是"文学专家"？

💡 技术深扒：路由器的工作原理

路由器本身是一个小型神经网络。

输入：当前 token 的向量表示（embedding）

输出：每个专家的"得分"（score）。得分最高的 K 个专家被选中激活，这个过程叫做 Top-K 路由。

关键问题：路由器是怎么学会"哪个 token 应该交给哪个专家"的？

答案是：它不是被"教"会的，而是在训练过程中自己学会的。训练开始时，路由器是随机的。随着训练进行，模型发现某些专家在处理数学 token 时输出质量更高，某些专家在处理代码时表现更好……路由器逐渐学会了这些规律。

没有人告诉路由器"数学应该交给专家3"。它是从数据中自己发现的。这是深度学习最迷人的地方之一：涌现出来的专业化分工。

但路由器的学习，并不总是顺利的。

它面临一个经典的困境：

如果某个专家在早期训练中表现好，路由器就会把更多 token 分配给它。

更多的训练数据，让这个专家变得更强。

更强的专家，吸引更多的 token。

其他专家，因为得不到足够的训练数据，越来越弱。

这个恶性循环，叫做专家坍塌（Expert Collapse） 。

最终，所有 token 都涌向同一个专家，其他专家形同虚设。

MoE 架构的最大挑战，就是防止专家坍塌。

⚖️ 五、负载均衡：防止专家坍塌的战争

专家坍塌，是 MoE 架构的"原罪"。

如果不加以控制，MoE 会退化成一个"全才模型"——所有计算都集中在少数几个专家上，其他专家的参数被白白浪费。

DeepSeek 在 V4 中，用了多种机制来对抗这个问题。

💡 技术深扒：负载均衡的三种策略

策略一：辅助损失（Auxiliary Loss）

在训练时，除了主要的语言模型损失，还加入一个"负载均衡损失"。这个损失会惩罚"某个专家被过度使用"的情况，强制路由器把 token 均匀分配给各个专家。代价：可能会牺牲一部分模型性能。

策略二：专家容量限制（Expert Capacity）

给每个专家设置一个"容量上限"——每个批次里，最多接受多少个 token。超过上限的 token，会被分配给次优的专家，或者直接跳过这一层。就像给每个专家设置了"工作量上限"，防止某个专家被压垮。

策略三：无辅助损失的负载均衡（DeepSeek 的创新）

DeepSeek 在 V3 中提出了一种新方法：不用辅助损失，而是直接在路由器的得分计算中加入"偏置项"。如果某个专家最近被使用太多，就降低它的得分，让其他专家有机会被选中。这个偏置项是动态调整的，不需要手动设置超参数。

V4 继承并改进了这个机制：在不牺牲模型性能的前提下，实现了更好的负载均衡。

负载均衡，听起来是一个技术细节。但它的意义，远不止于此。

负载均衡，决定了 MoE 架构能否真正发挥"专才团队"的优势。

如果负载不均衡，专家坍塌，MoE 就退化成了全才模型。如果负载均衡做好了，每个专家都能得到充分的训练，真正成为自己领域的专家。

这是 MoE 架构成败的关键。

🔗 六、mHC：给专才团队装上"稳定器"

讲到这里，有一个问题还没有回答：

V4 的 mHC（流形约束超连接）和 MoE 有什么关系？

在第一篇里，我们只是一句话带过了 mHC。现在，是时候讲清楚它了。

💡 技术深扒：为什么深层 MoE 网络特别不稳定？

普通的深层神经网络，已经有训练不稳定的问题。MoE 架构，让这个问题更严重。原因有两个：

原因一：路由器的不稳定性

路由器在训练过程中，会频繁改变 token 的分配方式。今天，token A 被分配给专家 3 和专家 7。明天，同样的 token A 可能被分配给专家 1 和专家 5。这种不稳定性，会导致梯度信号在网络中传播时出现剧烈波动。

原因二：专家之间的梯度干扰

不同专家处理不同类型的 token，它们的梯度方向可能完全不同。当这些梯度在网络的深层汇聚时，可能会相互抵消，甚至引发梯度爆炸。

对于一个有 1.6 万亿参数、384 个专家的模型，这种不稳定性是致命的。任何一次梯度爆炸，都可能让整个训练过程前功尽弃。

mHC 的作用，就是解决这个问题。

它的核心思想：

把残差连接的映射矩阵，约束在一个特殊的数学空间里（双随机矩阵流形）。

这个约束，保证了矩阵的谱范数不超过 1。谱范数不超过 1，意味着信号在经过这个矩阵时，不会被放大。不会被放大，就不会出现梯度爆炸。

💡 技术深扒：双随机矩阵流形是什么？

听起来很玄。但直觉上很简单。

想象一个矩阵，它的每一行的元素之和等于 1，每一列的元素之和也等于 1。这就是双随机矩阵。

它有一个重要的性质：它不会改变向量的"能量"。 一个向量经过双随机矩阵变换后，它的总能量（范数）不会增加。这就像一个"能量守恒"的变换——信号进去多少，出来多少，不会被放大。

把残差连接的映射矩阵约束在这个空间里，就保证了信号在网络深层传播时，不会出现能量爆炸。对于一个有几百层的深层 MoE 网络，这种约束至关重要。

用一个更直观的比喻：

想象一个有 384 个乐手的交响乐团（384 个专家）。每个乐手都在演奏自己的乐器（各自的参数）。

如果没有指挥（mHC），每个乐手都按自己的节奏演奏，声音会变成噪音。

mHC 就是那个指挥。它不告诉每个乐手演奏什么（不改变专家的参数），但它保证所有乐手的音量在一个合理的范围内（谱范数约束），不会有人突然把音量开到最大，把整个乐团的声音淹没。

这就是 mHC 在 MoE 中的角色：不是指挥，而是音量控制器。

🌊 七、1.6 万亿参数的真相

现在，我们可以回答一个很多人都好奇的问题：

V4 有 1.6 万亿参数，但为什么推理成本不是天文数字？

答案，就藏在 MoE 架构里。

💡 技术深扒：1.6 万亿参数的分解

V4-Pro 的 1.6 万亿参数，可以分成两部分：

共享参数（Shared Parameters）：

每次推理都会激活的参数，包括 Embedding 层、注意力机制等。这部分参数量相对较小。

专家参数（Expert Parameters）：

分布在 384 个专家里的参数。每次推理只激活 6 个专家，所以只有 6/384 ≈ 1.6% 的专家参数被激活。

最终结果：

总参数：1600B（1.6 万亿）
每次推理激活的参数：约 49B（490 亿）
激活比例：约 3%

推理成本，按激活参数计算，相当于一个 490 亿参数的模型。但模型的"知识储量"，相当于一个 1.6 万亿参数的模型。这就是 MoE 的核心价值：用存储换计算。

让我们用一个具体的数字来感受这个差距：

假设一个"全才模型"有 1.6 万亿参数，每次推理都激活所有参数。它的推理成本，大约是 V4-Pro 的 32 倍（1600B / 49B）。

32 倍的成本差距。这不是优化。这是降维打击。

这就是为什么 V4 能在保持顶级性能的同时，把 API 价格压到如此之低。

🔮 八、MoE 的边界：它能走多远？

MoE 架构，已经被证明是当前最有效的大模型扩展方式之一。

但它有没有边界？专家数量能无限增加吗？

💡 技术深扒：MoE 的三个天花板

天花板一：路由器的能力上限

专家越多，路由器的决策越难。当专家数量增加到某个临界点，路由器可能无法有效区分不同专家的专长，导致路由质量下降。目前，384 个专家是否已经接近这个临界点，还不清楚。

天花板二：显存的物理限制

MoE 的代价是显存。1.6 万亿参数，即使用 BF16 精度存储，也需要约 3.2TB 的显存。这需要数百张 H100/H800 显卡才能装下。专家数量继续增加，显存需求会线性增长。这是一个硬约束。

天花板三：通信开销

在分布式推理中，不同专家分布在不同的 GPU 上。当一个 token 需要跨 GPU 访问专家时，会产生通信延迟。专家越多，分布越分散，通信开销越大。这是 MoE 在工程实现上的核心挑战之一。

这些天花板，并不意味着 MoE 走到了尽头。它们只是意味着：下一步的突破，需要在路由器设计、显存管理、分布式通信上同时取得进展。

V4 的 384 个专家，不是终点。

它是一个里程碑。

🌌 九、一个更大的问题：专才的意义

讲到这里，我想说一个超出技术范畴的问题。

MoE 架构，本质上是在模拟一种组织形式：

专才团队，而不是全才个体。

这个选择，背后有一个深刻的假设：

世界上的知识，是可以被分割的。

数学有数学的规律，语言有语言的规律，代码有代码的规律。这些规律，可以被不同的"专家"分别学习，分别存储，在需要的时候被调用。

💡 技术深扒：MoE 的涌现现象

研究者们发现了一个有趣的现象：在 MoE 模型训练完成后，如果你去分析每个专家"擅长"什么，会发现一些令人惊讶的规律：

某些专家，确实专门处理数学相关的 token
某些专家，确实专门处理代码相关的 token
某些专家，确实专门处理特定语言的 token

这种专业化分工，没有人在训练时明确指定。它是从数据中自发涌现出来的。

这意味着：MoE 架构，在某种程度上，发现了人类知识的内在结构。数学和诗歌，确实是不同的东西。模型通过训练，自己发现了这一点。

这是深度学习最令人着迷的地方之一。

但这里有一个更深的问题：

如果知识可以被分割，那么"理解"是什么？

一个 MoE 模型，在回答一道数学题时，激活了"数学专家"。它真的"理解"了这道题吗？还是只是找到了"最擅长处理这类 token 的专家"，然后输出了一个统计上最可能正确的答案？

这个问题，没有简单的答案。

但它值得思考。

🎬 十、写在最后：384 个专家的沉默

2026年，DeepSeek V4 的 384 个专家，每天处理着数以亿计的请求。

每一个请求，都会触发一次路由决策。路由器在毫秒之间，决定哪 6 个专家被激活。

其余 378 个专家，沉默着。

等待着。

等待着属于自己的那个 token。

这让我想起了一个关于图书馆的比喻。

一座图书馆，有几百万本书。大多数时候，大多数书都静静地待在书架上，没有人翻阅。

但它们的存在，是有意义的。

因为当某个读者走进来，需要那本关于量子力学的冷门著作时，它就在那里。

V4 的 384 个专家，就是这座图书馆。

1.6 万亿参数，是几百万本书。

每次推理激活 6 个专家，是借出几本书。

大多数专家的沉默，不是浪费。而是一种准备。

刘慈欣在《三体》里写过一句话：

"弱小和无知不是生存的障碍，傲慢才是。"

套用在这里：

"参数少和算力弱不是模型的障碍，低效才是。"

DeepSeek V4 的 MoE 架构，是对"低效"的宣战。

不是用更多的算力，而是用更聪明的分工。

不是让所有专家都参与每一次计算，而是让正确的专家，在正确的时候，做正确的事。

这，才是 384 个专家的真正意义。