DeepSeek：mHC架构革新，解决大模型稳定性难题！“一项突破性的神经网络架构创新，让大模型训练既稳定又高效，AI技

“一项突破性的神经网络架构创新，让大模型训练既稳定又高效，AI技术边界再次被推向前沿”。

当所有人都在追逐更大参数规模、更多训练数据时，DeepSeek团队却从另一个维度找到了突破点——神经网络架构本身。

今天，我们带来一项可能改变大模型训练游戏规则的技术：Manifold-Constrained Hyper-Connections（mHC，流形约束超连接）。

这项技术不仅解决了长期困扰研究者的训练稳定性难题，还为大模型的进一步发展打开了新的大门。

01 架构革命，从ResNet到HC的演进

要理解mHC的意义，我们先回顾一下神经网络架构的发展历程。

自2016年ResNet提出残差网络以来，深度神经网络架构经历了快速演进。

简单来说，就是每层的输出 = 输入 + 该层的变换结果。

这种架构确保了信号在深层网络中不会消失，让训练数百甚至上千层的网络成为可能。

随着Transformer架构的崛起，残差连接成为大语言模型的标准配置。但十年过去了，这一范式几乎没有本质变化——直到超连接（HC）的出现。

HC做了一个大胆的改变：把原本一维的残差流扩展为多维。想象一下，从一条单行道变成了四车道高速公路，信息可以在多个“车道”间流动、交换、融合。

理论上，这极大提升了模型的表达能力。实践中也确实带来了性能提升，但却埋下了隐患。

HC虽然性能更强，却牺牲了最宝贵的特性——训练稳定性。

问题的核心在于“恒等映射”的丧失。在标准残差连接中，输入信号能无损地传递到深层；但在HC中，这个传递过程可能被过度放大或衰减。

DeepSeek团队在训练27B模型时观察到：某些层的信号增益幅度出现极值（峰值达 3000），与 1 相差极大，证实了残差流爆炸的存在。这会导致训练过程中出现异常的损失飙升和梯度增大。

更糟糕的是，HC还带来了严重的系统开销。DeepSeek团队分析了以流残差设计在单个残差层中引入的每 token 内存访问开销，表明HC 使内存访问成本增加数倍。总的来说，内存访问（I/O）成本通常是现代模型架构的主要瓶颈之一，在架构设计中常被忽视，但对运行效率具有决定性影响。

面对HC的困境，DeepSeek团队提出了一个优雅的解决方案：不放弃HC的复杂连接，而是给它们加上“交通规则”。

mHC的核心创新在于“流形约束”——通过数学方法将残差连接矩阵投影到特定的几何空间中。

具体来说，mHC使用了Sinkhorn-Knopp算法，强制让这些矩阵成为“双随机矩阵”。

什么是双随机矩阵？简单说，就是矩阵的每一行之和为1，每一列之和也为1。这种矩阵有两个美妙性质：信号放大倍数不会超过1，而且多个这样的矩阵相乘后仍然是双随机矩阵。

这就好比给高速公路加上了智能交通管制系统，既保证了各车道间的充分交流，又防止了交通拥堵或事故。

内核融合：将多个操作合并，减少内存访问次数，充分利用计算资源。

重计算：在反向传播时按需重新计算中间结果，将内存占用优化到理论最优。

通信重叠：在分布式训练中精心调度，让通信和计算并行进行。

这一设计允许抢占重叠的注意力计算，在保持计算设备处理单元高利用率的同时实现灵活调度。此外，由于每个阶段的初始激活值已在本地缓存，重计算过程与流水线通信依赖解耦。

mHC不是纸上谈兵，DeepSeek团队进行了大规模的实验验证。

在27B模型的训练中，mHC 在损失和梯度范数方面均表现出更优的稳定性,缓解了HC的不稳定性，同时保持了性能优势。最终损失比基线模型降低了0.021，这是一个相当显著的提升。

在具体的下游任务评测中，mHC实现了全面的性能提升且在大多数任务上超越 HC。特别是在推理能力相关的任务上（如BBH和DROP），mHC比HC进一步提升了2.1%以上的性能。

mHC的意义远不止解决了一个具体的技术问题。它代表了神经网络架构研究的一个重要转向：从单纯增加复杂性，到在约束中寻求最优表达。

过去十年，我们见证了从卷积到注意力、从稠密连接到稀疏专家模型的演进，但宏观拓扑结构的创新相对较少。

mHC打破了这一局面。它展示了通过数学约束来平衡表达能力与训练稳定性的可能性，为未来的架构设计提供了新思路。

或许，我们正处于一个新的拐点：模型性能的提升将更多来自架构创新，而不仅仅是规模和数据的堆砌。