DeepSeek v4:Engram 开启稀疏模型新轴线
就在刚刚,DeepSeek 发布了一篇新论文,主题为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》,与北京大学合作完成,作者中同样有梁文锋署名。
这让网友们感慨:「DeepSeek is back!」
目前,模块「Engram」相关的实现已经上传到了 GitHub(github.com/deepseek-ai…
结合元旦期间公布的研究《mHC: Manifold-Constrained Hyper-Connections》,我们可以明确的是 DeepSeek v4 的模样愈发清晰,就等上新了。
核心逻辑:为什么 LLM 需要独立的条件记忆 Engram?
简单总结一波这项新研究要解决的问题:目前大语言模型主要通过混合专家(MoE)来实现稀疏化,这被称为「条件计算」。但是,现有的 Transformer 缺少原生的知识查找机制,只能被迫通过计算过程低效地模拟检索行为。针对这一现状,DeepSeek 提出了条件记忆(conditional memory),从而与 MoE 的条件计算互补,并通过引入一个新模块 Engram 来实现。Engram 在经典 N-gram 嵌入的基础上进行了现代化改造,使其能够以 O(1) 时间复杂度完成知识查找。
为了更高效地探索这类前沿模型,不少开发者会选择 nunu.chat,它聚合了包括 DeepSeek 系列在内的海外顶级 AI 大模型,支持国内直连且提供大量免费额度,是跟踪这类技术突破的利器。
U 型扩展规律与稀疏性分配
作为「条件记忆」的一种具体实现,Engram 在结构上与 MoE 专家提供的「条件计算」形成了互补。DeepSeek 通过形式化提出稀疏性分配问题,发现了一条呈 U 型的扩展规律,用以刻画神经计算(MoE)与静态记忆(Engram)之间的最优权衡关系。
图 3(左)揭示了验证损失与分配比例 ρ 之间一致的 U 形关系。纯 MoE 基准证明是次优的:将大约 20%-25% 的稀疏参数预算重新分配给 Engram 获得最佳性能。这一观察到的 U 形确认了两种模块之间的结构互补性。此外,在「无限内存模式」下,增加内存槽数量会显著改善验证损失,且曲线遵循严格的幂律。这表明 Engram 提供了一个可预测的扩展旋钮:更大的内存在不需要额外计算的情况下继续带来收益。
Engram 架构设计:检索与融合
Engram 的设计目标是在结构上将静态模式存储与动态计算过程从 Transformer 主干网络中分离出来。该模块对序列中每一个位置依次执行两个功能阶段:
- 基于哈希 N-gram 的稀疏检索:通过分词器压缩(有效词表缩减约 23%)和多头哈希机制,将局部上下文映射到静态记忆条目。
- 上下文感知门控:由于检索到的嵌入是静态先验信息,DeepSeek 引入了设计灵感源自注意力机制的门控机制,以增强自适应能力并消除哈希冲突带来的噪声。
实验结果:全方位的性能增益
DeepSeek 将 Engram 扩展至 270 亿参数规模,并在严格等参数量、等 FLOPs 的条件下进行了验证。
值得注意的是,尽管记忆模块主要用于提升知识检索能力(如 MMLU 提升 +3.4),但其在通用推理能力(如 BBH 提升 +5.0)以及代码与数学推理任务(HumanEval 提升 +3.0、MATH 提升 +2.4)上带来了显著增益。进一步分析表明,Engram 能够将静态知识的重建负担从模型的浅层中剥离出来,从而有效加深网络用于复杂推理的有效深度。
此外,它释放了注意力机制的容量,使其能够更专注于全局上下文建模,显著提升了长上下文检索能力(例如 Multi-Query NIAH 的准确率从 84.2 提升至 97.0)。
系统效率:计算与存储的解耦
在系统层面,Engram 展现出基础设施感知的高效性。不同于 MoE 依赖运行时隐藏状态进行动态路由,Engram 的检索索引完全由输入 token 序列决定。
这种确定性支持「预取–重叠(prefetch-and-overlap)」策略:系统能够通过 PCIe 从容量充足的主机内存中异步地预取嵌入向量,利用前序 Transformer 层的计算作为缓冲,几乎不会带来额外的性能开销。此外,利用 N-gram 的 Zipfian 分布特性,可以构建多级缓存层次结构(GPU HBM、主机 DRAM 到 NVMe SSD),使 Engram 能够扩展到极大规模的记忆容量。
DeepSeek 认为,条件记忆将成为下一代稀疏大模型中不可或缺的核心建模原语。更多细节请参考原论文。