《Engram：让大模型拥有"长期记忆"的新架构》最近，北京大学和深度求索（DeepSeek-AI）的研究团队发现了一个

想象一下，当你看到"北京大学"这四个字时，大脑瞬间就能理解这是一个中国顶尖学府。但对于当前的大语言模型来说，理解这个简单的实体却需要复杂的计算过程。

最近，北京大学和深度求索（DeepSeek-AI）的研究团队发现了一个有趣的现象：大模型在处理"北京大学"、“爱因斯坦"这类常见实体时，竟然需要消耗多个早期注意力层和前馈网络层来"重建"这些知识。这就像每次提到"水”，你都需要重新学习水的化学式一样低效。

问题的根源在于：Transformer架构缺乏原生的"知识查找"能力。它被迫用昂贵的计算来模拟本应是简单查找的操作。这种"计算浪费"不仅降低了效率，还占用了宝贵的网络深度，影响了模型的推理能力。

Engram--AI的"长期记忆"系统

什么是Engram？

Engram这个名字来源于神经科学中的"记忆痕迹"概念。在AI领域，Engram是一个条件内存模块，专门负责存储和检索静态知识。

核心思想很简单却深刻：将语言处理分为两个部分：

动态推理：需要深度计算的复杂逻辑（由MoE处理）

静态知识检索：固定的实体、公式、模式（由Engram处理）

技术本质：现代化的N-gram查找

Engram基于经典的N-gram概念，但进行了现代化改造：

O(1)查找：像查字典一样快速检索知识

确定性寻址：每个知识都有固定"地址"，可预测访问

上下文感知门控：智能决定何时使用内存，何时进行计算

一个生动的类比

把大模型想象成一个人的大脑：

传统Transformer：只有"工作记忆"，所有事情都要现场思考

MoE模型：有了多个"专家"，可以并行处理不同任务

Engram模型：增加了"长期记忆"系统，常用知识随取随用

技术突破--不仅仅是"记忆好"

性能大幅提升

研究团队在27B参数规模的模型上进行了测试，结果令人惊讶：

知识任务显著提升：

MMLU（通用知识）：+3.4%

CMMLU（中文知识）：+4.0%

MMLU-Pro（高级知识）：+1.8%

更令人惊喜的是推理能力提升：

BBH（复杂推理）：+5.0%

ARC-Challenge（科学推理）：+3.7%

DROP（阅读理解）：+3.3%

代码和数学能力也同步增强：

HumanEval（代码生成）：+3.0%

MATH（数学问题）：+2.4%

GSM8K（小学数学）：+2.2%

为什么"记忆"能提升"推理"？

这可能是Engram最反直觉的地方：增加记忆模块不仅提升了知识检索能力，还显著增强了推理能力。

研究团队通过机制分析发现两个关键原因：

释放早期层：传统模型中，早期层忙于重建静态知识（如"北京大学是一个大学"）。Engram接管了这些任务，让早期层可以专注于提取更抽象的特征。

解放注意力：注意力机制不再需要处理局部依赖关系（如"北京"和"大学"的关系），可以更专注于全局上下文和复杂逻辑。

长上下文能力的飞跃

Engram在长上下文处理上表现尤为突出：

多查询NIAH：准确率从84.2%提升到97.0%

变量追踪：从77.0%提升到89.0%

长文档理解：在32K上下文长度下全面超越基线

这意味着Engram模型不仅能记住更多，还能在长文档中更准确地找到相关信息。

效率革命--突破硬件限制

惊人的系统效率

Engram最实用的优势在于其基础设施感知的设计：

内存可卸载：100B参数的Engram表可以完全卸载到主机内存（CPU内存），GPU只需要在推理时按需获取。

开销极小：实验显示，这种卸载带来的推理开销小于3%。这意味着你可以用有限的GPU内存运行参数大得多的模型。

确定性优势：与MoE的动态路由不同，Engram的查找是确定性的。这使得：运行时预取成为可能、通信与计算可以重叠、系统优化更加简单。

稀疏分配定律

研究团队发现了一个重要的U型稀疏分配定律：

当总参数预算固定时，在MoE（条件计算）和Engram（条件内存）之间存在一个最优分配比例。

关键发现：将20-25%的稀疏参数预算分配给Engram，剩余75-80%给MoE，可以获得最佳性能。

这意味着纯粹的MoE模型并不是最优的，条件内存是条件计算的必要补充。

AI架构的新范式

第三大稀疏性维度

在AI稀疏化的发展历程中，我们已经有了：

权重稀疏：早期的剪枝、量化技术

激活稀疏：MoE代表的条件计算

现在新增：内存稀疏——Engram代表的条件内存

这标志着AI架构设计进入了一个新阶段：从单纯追求"算得快"到追求"记得巧、算得精"。

专事专办的设计哲学

Engram的成功验证了一个重要的设计原则：不同的任务需要不同的处理机制。

动态推理 → 神经网络计算

静态知识 → 内存查找

局部依赖 → N-gram模式

全局关系 → 注意力机制

这种"专事专办"的思路可能会影响未来AI架构的各个方面。

实际应用前景

对开发者的价值

成本降低：用更少的GPU内存运行更大的模型

性能提升：在相同算力下获得更好的效果

长上下文：更好地处理长文档、长对话场景

对行业的影响

搜索增强：更准确的知识检索能力

代码助手：更好的代码理解和生成

教育应用：更深入的知识问答

企业应用：更好地处理企业知识库

有时候，最简单的机制能解决最根本的问题。

N-gram是一个几十年前的技术，但通过现代化的改造和精心的系统设计，它在大模型时代焕发了新的生命力。让适合计算的去做计算，让适合存储的去做存储，让两者协同工作。在AI快速发展的今天，我们可以在不增加计算成本的前提下，让AI变得更智能、更高效、更实用。这或许正是AI从"大力出奇迹"走向"巧力出精品"的重要一步。

欢迎在评论区分享你的想法！如果觉得有用，请记得点赞、收藏、转发，让更多小伙伴受益～