想象一下,当你看到"北京大学"这四个字时,大脑瞬间就能理解这是一个中国顶尖学府。但对于当前的大语言模型来说,理解这个简单的实体却需要复杂的计算过程。
最近,北京大学和深度求索(DeepSeek-AI)的研究团队发现了一个有趣的现象:大模型在处理"北京大学"、“爱因斯坦"这类常见实体时,竟然需要消耗多个早期注意力层和前馈网络层来"重建"这些知识。这就像每次提到"水”,你都需要重新学习水的化学式一样低效。
问题的根源在于:Transformer架构缺乏原生的"知识查找"能力。它被迫用昂贵的计算来模拟本应是简单查找的操作。这种"计算浪费"不仅降低了效率,还占用了宝贵的网络深度,影响了模型的推理能力。
Engram--AI的"长期记忆"系统
什么是Engram?
Engram这个名字来源于神经科学中的"记忆痕迹"概念。在AI领域,Engram是一个条件内存模块,专门负责存储和检索静态知识。
核心思想很简单却深刻:将语言处理分为两个部分:
动态推理:需要深度计算的复杂逻辑(由MoE处理)
静态知识检索:固定的实体、公式、模式(由Engram处理)
技术本质:现代化的N-gram查找
Engram基于经典的N-gram概念,但进行了现代化改造:
O(1)查找:像查字典一样快速检索知识
确定性寻址:每个知识都有固定"地址",可预测访问
上下文感知门控:智能决定何时使用内存,何时进行计算
一个生动的类比
把大模型想象成一个人的大脑:
传统Transformer:只有"工作记忆",所有事情都要现场思考
MoE模型:有了多个"专家",可以并行处理不同任务
Engram模型:增加了"长期记忆"系统,常用知识随取随用
技术突破--不仅仅是"记忆好"
性能大幅提升
研究团队在27B参数规模的模型上进行了测试,结果令人惊讶:
知识任务显著提升:
MMLU(通用知识):+3.4%
CMMLU(中文知识):+4.0%
MMLU-Pro(高级知识):+1.8%
更令人惊喜的是推理能力提升:
BBH(复杂推理):+5.0%
ARC-Challenge(科学推理):+3.7%
DROP(阅读理解):+3.3%
代码和数学能力也同步增强:
HumanEval(代码生成):+3.0%
MATH(数学问题):+2.4%
GSM8K(小学数学):+2.2%
为什么"记忆"能提升"推理"?
这可能是Engram最反直觉的地方:增加记忆模块不仅提升了知识检索能力,还显著增强了推理能力。
研究团队通过机制分析发现两个关键原因:
释放早期层:传统模型中,早期层忙于重建静态知识(如"北京大学是一个大学")。Engram接管了这些任务,让早期层可以专注于提取更抽象的特征。
解放注意力:注意力机制不再需要处理局部依赖关系(如"北京"和"大学"的关系),可以更专注于全局上下文和复杂逻辑。
长上下文能力的飞跃
Engram在长上下文处理上表现尤为突出:
多查询NIAH:准确率从84.2%提升到97.0%
变量追踪:从77.0%提升到89.0%
长文档理解:在32K上下文长度下全面超越基线
这意味着Engram模型不仅能记住更多,还能在长文档中更准确地找到相关信息。
效率革命--突破硬件限制
惊人的系统效率
Engram最实用的优势在于其基础设施感知的设计:
内存可卸载:100B参数的Engram表可以完全卸载到主机内存(CPU内存),GPU只需要在推理时按需获取。
开销极小:实验显示,这种卸载带来的推理开销小于3%。这意味着你可以用有限的GPU内存运行参数大得多的模型。
确定性优势:与MoE的动态路由不同,Engram的查找是确定性的。这使得:运行时预取成为可能、通信与计算可以重叠、系统优化更加简单。
稀疏分配定律
研究团队发现了一个重要的U型稀疏分配定律:
当总参数预算固定时,在MoE(条件计算)和Engram(条件内存)之间存在一个最优分配比例。
关键发现:将20-25%的稀疏参数预算分配给Engram,剩余75-80%给MoE,可以获得最佳性能。
这意味着纯粹的MoE模型并不是最优的,条件内存是条件计算的必要补充。
AI架构的新范式
第三大稀疏性维度
在AI稀疏化的发展历程中,我们已经有了:
权重稀疏:早期的剪枝、量化技术
激活稀疏:MoE代表的条件计算
现在新增:内存稀疏——Engram代表的条件内存
这标志着AI架构设计进入了一个新阶段:从单纯追求"算得快"到追求"记得巧、算得精"。
专事专办的设计哲学
Engram的成功验证了一个重要的设计原则:不同的任务需要不同的处理机制。
动态推理 → 神经网络计算
静态知识 → 内存查找
局部依赖 → N-gram模式
全局关系 → 注意力机制
这种"专事专办"的思路可能会影响未来AI架构的各个方面。
实际应用前景
对开发者的价值
成本降低:用更少的GPU内存运行更大的模型
性能提升:在相同算力下获得更好的效果
长上下文:更好地处理长文档、长对话场景
对行业的影响
搜索增强:更准确的知识检索能力
代码助手:更好的代码理解和生成
教育应用:更深入的知识问答
企业应用:更好地处理企业知识库
有时候,最简单的机制能解决最根本的问题。
N-gram是一个几十年前的技术,但通过现代化的改造和精心的系统设计,它在大模型时代焕发了新的生命力。让适合计算的去做计算,让适合存储的去做存储,让两者协同工作。在AI快速发展的今天,我们可以在不增加计算成本的前提下,让AI变得更智能、更高效、更实用。这或许正是AI从"大力出奇迹"走向"巧力出精品"的重要一步。
欢迎在评论区分享你的想法!如果觉得有用,请记得点赞、收藏、转发,让更多小伙伴受益~