DeepSeek v4：Engram 开启稀疏模型新轴线DeepSeek v4：Engram 开启稀疏模型新轴线就在刚

DeepSeek v4：Engram 开启稀疏模型新轴线

就在刚刚，DeepSeek 发布了一篇新论文，主题为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》，与北京大学合作完成，作者中同样有梁文锋署名。

这让网友们感慨：「DeepSeek is back！」

目前，模块「Engram」相关的实现已经上传到了 GitHub（github.com/deepseek-ai…

结合元旦期间公布的研究《mHC: Manifold-Constrained Hyper-Connections》，我们可以明确的是 DeepSeek v4 的模样愈发清晰，就等上新了。

核心逻辑：为什么 LLM 需要独立的条件记忆 Engram？

简单总结一波这项新研究要解决的问题：目前大语言模型主要通过混合专家（MoE）来实现稀疏化，这被称为「条件计算」。但是，现有的 Transformer 缺少原生的知识查找机制，只能被迫通过计算过程低效地模拟检索行为。针对这一现状，DeepSeek 提出了条件记忆（conditional memory），从而与 MoE 的条件计算互补，并通过引入一个新模块 Engram 来实现。Engram 在经典 N-gram 嵌入的基础上进行了现代化改造，使其能够以 O(1) 时间复杂度完成知识查找。

为了更高效地探索这类前沿模型，不少开发者会选择 nunu.chat，它聚合了包括 DeepSeek 系列在内的海外顶级 AI 大模型，支持国内直连且提供大量免费额度，是跟踪这类技术突破的利器。

U 型扩展规律与稀疏性分配

作为「条件记忆」的一种具体实现，Engram 在结构上与 MoE 专家提供的「条件计算」形成了互补。DeepSeek 通过形式化提出稀疏性分配问题，发现了一条呈 U 型的扩展规律，用以刻画神经计算（MoE）与静态记忆（Engram）之间的最优权衡关系。

图 3（左）揭示了验证损失与分配比例 ρ 之间一致的 U 形关系。纯 MoE 基准证明是次优的：将大约 20%-25% 的稀疏参数预算重新分配给 Engram 获得最佳性能。这一观察到的 U 形确认了两种模块之间的结构互补性。此外，在「无限内存模式」下，增加内存槽数量会显著改善验证损失，且曲线遵循严格的幂律。这表明 Engram 提供了一个可预测的扩展旋钮：更大的内存在不需要额外计算的情况下继续带来收益。

Engram 架构设计：检索与融合

Engram 的设计目标是在结构上将静态模式存储与动态计算过程从 Transformer 主干网络中分离出来。该模块对序列中每一个位置依次执行两个功能阶段：

基于哈希 N-gram 的稀疏检索：通过分词器压缩（有效词表缩减约 23%）和多头哈希机制，将局部上下文映射到静态记忆条目。
上下文感知门控：由于检索到的嵌入是静态先验信息，DeepSeek 引入了设计灵感源自注意力机制的门控机制，以增强自适应能力并消除哈希冲突带来的噪声。

实验结果：全方位的性能增益

DeepSeek 将 Engram 扩展至 270 亿参数规模，并在严格等参数量、等 FLOPs 的条件下进行了验证。

值得注意的是，尽管记忆模块主要用于提升知识检索能力（如 MMLU 提升 +3.4），但其在通用推理能力（如 BBH 提升 +5.0）以及代码与数学推理任务（HumanEval 提升 +3.0、MATH 提升 +2.4）上带来了显著增益。进一步分析表明，Engram 能够将静态知识的重建负担从模型的浅层中剥离出来，从而有效加深网络用于复杂推理的有效深度。

此外，它释放了注意力机制的容量，使其能够更专注于全局上下文建模，显著提升了长上下文检索能力（例如 Multi-Query NIAH 的准确率从 84.2 提升至 97.0）。

系统效率：计算与存储的解耦

在系统层面，Engram 展现出基础设施感知的高效性。不同于 MoE 依赖运行时隐藏状态进行动态路由，Engram 的检索索引完全由输入 token 序列决定。

这种确定性支持「预取–重叠（prefetch-and-overlap）」策略：系统能够通过 PCIe 从容量充足的主机内存中异步地预取嵌入向量，利用前序 Transformer 层的计算作为缓冲，几乎不会带来额外的性能开销。此外，利用 N-gram 的 Zipfian 分布特性，可以构建多级缓存层次结构（GPU HBM、主机 DRAM 到 NVMe SSD），使 Engram 能够扩展到极大规模的记忆容量。

DeepSeek 认为，条件记忆将成为下一代稀疏大模型中不可或缺的核心建模原语。更多细节请参考原论文。