《Engram:让大模型拥有"长期记忆"的新架构》

129 阅读6分钟

想象一下,当你看到"北京大学"这四个字时,大脑瞬间就能理解这是一个中国顶尖学府。但对于当前的大语言模型来说,理解这个简单的实体却需要复杂的计算过程。

最近,北京大学和深度求索(DeepSeek-AI)的研究团队发现了一个有趣的现象:大模型在处理"北京大学"、“爱因斯坦"这类常见实体时,竟然需要消耗多个早期注意力层和前馈网络层来"重建"这些知识。这就像每次提到"水”,你都需要重新学习水的化学式一样低效。

问题的根源在于:Transformer架构缺乏原生的"知识查找"能力。它被迫用昂贵的计算来模拟本应是简单查找的操作。这种"计算浪费"不仅降低了效率,还占用了宝贵的网络深度,影响了模型的推理能力。

Engram--AI的"长期记忆"系统

image.png

什么是Engram?

Engram这个名字来源于神经科学中的"记忆痕迹"概念。在AI领域,Engram是一个条件内存模块,专门负责存储和检索静态知识。

核心思想很简单却深刻:将语言处理分为两个部分:

动态推理:需要深度计算的复杂逻辑(由MoE处理)

静态知识检索:固定的实体、公式、模式(由Engram处理)

技术本质:现代化的N-gram查找

Engram基于经典的N-gram概念,但进行了现代化改造:

O(1)查找:像查字典一样快速检索知识

确定性寻址:每个知识都有固定"地址",可预测访问

上下文感知门控:智能决定何时使用内存,何时进行计算

一个生动的类比

把大模型想象成一个人的大脑:

传统Transformer:只有"工作记忆",所有事情都要现场思考

MoE模型:有了多个"专家",可以并行处理不同任务

Engram模型:增加了"长期记忆"系统,常用知识随取随用

技术突破--不仅仅是"记忆好"

image.png

性能大幅提升

研究团队在27B参数规模的模型上进行了测试,结果令人惊讶:

知识任务显著提升:

MMLU(通用知识):+3.4%

CMMLU(中文知识):+4.0%

MMLU-Pro(高级知识):+1.8%

更令人惊喜的是推理能力提升:

BBH(复杂推理):+5.0%

ARC-Challenge(科学推理):+3.7%

DROP(阅读理解):+3.3%

代码和数学能力也同步增强:

HumanEval(代码生成):+3.0%

MATH(数学问题):+2.4%

GSM8K(小学数学):+2.2%

为什么"记忆"能提升"推理"?

这可能是Engram最反直觉的地方:增加记忆模块不仅提升了知识检索能力,还显著增强了推理能力。

研究团队通过机制分析发现两个关键原因:

释放早期层:传统模型中,早期层忙于重建静态知识(如"北京大学是一个大学")。Engram接管了这些任务,让早期层可以专注于提取更抽象的特征。

解放注意力:注意力机制不再需要处理局部依赖关系(如"北京"和"大学"的关系),可以更专注于全局上下文和复杂逻辑。

长上下文能力的飞跃

Engram在长上下文处理上表现尤为突出:

多查询NIAH:准确率从84.2%提升到97.0%

变量追踪:从77.0%提升到89.0%

长文档理解:在32K上下文长度下全面超越基线

这意味着Engram模型不仅能记住更多,还能在长文档中更准确地找到相关信息。

效率革命--突破硬件限制

image.png

惊人的系统效率

Engram最实用的优势在于其基础设施感知的设计:

内存可卸载:100B参数的Engram表可以完全卸载到主机内存(CPU内存),GPU只需要在推理时按需获取。

开销极小:实验显示,这种卸载带来的推理开销小于3%。这意味着你可以用有限的GPU内存运行参数大得多的模型。

确定性优势:与MoE的动态路由不同,Engram的查找是确定性的。这使得:运行时预取成为可能、通信与计算可以重叠、系统优化更加简单。

稀疏分配定律

研究团队发现了一个重要的U型稀疏分配定律:

当总参数预算固定时,在MoE(条件计算)和Engram(条件内存)之间存在一个最优分配比例。

关键发现:将20-25%的稀疏参数预算分配给Engram,剩余75-80%给MoE,可以获得最佳性能。

这意味着纯粹的MoE模型并不是最优的,条件内存是条件计算的必要补充。

AI架构的新范式

image.png

第三大稀疏性维度

在AI稀疏化的发展历程中,我们已经有了:

权重稀疏:早期的剪枝、量化技术

激活稀疏:MoE代表的条件计算

现在新增:内存稀疏——Engram代表的条件内存

这标志着AI架构设计进入了一个新阶段:从单纯追求"算得快"到追求"记得巧、算得精"。

专事专办的设计哲学

Engram的成功验证了一个重要的设计原则:不同的任务需要不同的处理机制。

动态推理 → 神经网络计算

静态知识 → 内存查找

局部依赖 → N-gram模式

全局关系 → 注意力机制

这种"专事专办"的思路可能会影响未来AI架构的各个方面。

实际应用前景

对开发者的价值

成本降低:用更少的GPU内存运行更大的模型

性能提升:在相同算力下获得更好的效果

长上下文:更好地处理长文档、长对话场景

对行业的影响

搜索增强:更准确的知识检索能力

代码助手:更好的代码理解和生成

教育应用:更深入的知识问答

企业应用:更好地处理企业知识库

有时候,最简单的机制能解决最根本的问题。

N-gram是一个几十年前的技术,但通过现代化的改造和精心的系统设计,它在大模型时代焕发了新的生命力。让适合计算的去做计算,让适合存储的去做存储,让两者协同工作。在AI快速发展的今天,我们可以在不增加计算成本的前提下,让AI变得更智能、更高效、更实用。这或许正是AI从"大力出奇迹"走向"巧力出精品"的重要一步。

欢迎在评论区分享你的想法!如果觉得有用,请记得点赞、收藏、转发,让更多小伙伴受益~