DeepSeek V4要来了?梁文锋出手直击Transformer"失忆症"

150 阅读4分钟

2026年1月13日凌晨,DeepSeek创始人梁文锋署名的新论文悄然上线。这篇33页的文献没有秀参数规模,而是瞄准了Transformer最致命的"阿喀琉斯之踵"——记忆机制缺失。团队提出的Engram模块,或将让大模型告别"死记硬背",实现真正的"过目不忘"。更关键的是,市场猜测春节档发布的DeepSeek V4,极可能集成这一颠覆性架构。

image.png

Transformer的"健忘"病根

当前所有主流大模型,无论是GPT-4还是DeepSeek-V3,本质都是Transformer架构。这尊"AI神坛"有个致命缺陷:没有原生知识查找机制。模型被迫用海量计算去"假装"检索能力,就像学生考试时硬背整本书,而不是精准翻找笔记。

Mixture-of-Experts(MoE)架构虽通过稀疏计算缓解了算力压力,但治标不治本——它只是让模型"少算点",却没解决"该查时查不到"的根本问题。论文一针见血指出:MoE只解决了"怎么少算",而Engram要解决的是"别瞎算"。

Engram:给AI装上O(1)速查"外挂"

Engram的核心灵感来自经典哈希N-gram,但进行了现代化改造。它构建了一个条件记忆稀疏轴,通过确定性哈希实现近似O(1)的极速知识查找。简单来说,模型遇到"勾股定理"这类静态知识时,不再启动复杂的自注意力计算,而是像查字典一样直接调取,响应时间从毫秒级降至微秒级。

更精妙的是U形scaling law的发现。团队通过调整MoE与Engram的参数分配比例ρ,发现两者存在非线性互补关系:纯MoE(ρ=100%)或纯Engram(ρ=0%)都是次优解,只有找到U型曲线最低点,才能让计算与记忆达到最佳平衡。实验显示,将Engram扩展到27B参数后,在等算力、等参数量下全面碾压MoE基线。

性能暴涨:不止是会"背",更会"想"

在严格的对比测试中,Engram-27B的表现堪称惊艳:

  • 知识类任务:MMLU基准提升3.0分,CMMLU提升4.0分
  • 推理类任务:BBH提升5.0分,ARC-Challenge提升3.7分
  • 代码数学:HumanEval提升3.0分,MATH提升2.4分

这些提升并非孤立。 Engram通过将局部依赖建模卸载给静态查找,彻底解放了注意力机制,让Transformer的主干网络专注于全局推理。结果不仅是更会"背书",代码、数学等需要深度思考的能力同步增强。扩展到40B参数后,性能差距仍在持续扩大,证明Engram的内存容量远未饱和。

DeepSeek此举的深层意图,是从工程优化走向范式革命。 当业界还在比拼万亿参数时,梁文锋团队选择回到第一性原理——让模型架构回归知识处理的本质。这种"反内卷"的路径选择,与V3发布时"紧平衡"的训练策略一脉相承。

更值得玩味的是,开源论文地址(GitHub已可查)并高调署名,既秀了技术肌肉,又为V4发布预热。若V4真集成Engram,意味着DeepSeek将率先完成从"计算密集型"到"记忆-计算双驱动"的架构跃迁,这是中国大模型首次在基础架构层面引领全球创新。

中国大模型的"诺曼底时刻"?

从MLA机制优化KV缓存,到MoE负载均衡创新,再到如今的Engram记忆革命,DeepSeek正系统性地拆解Transformer的每一个性能瓶颈。当美国同行还在堆参数、卷算力时,中国团队用架构级创新证明了"四两拨千斤"的可能。

如果V4在春节如期而至,Engram成功落地,这不仅是DeepSeek的胜利,更是中国AI产业从"追赶者"到"规则制定者"的关键一跃。毕竟,在大模型竞赛中,最稀缺的从来不是算力,而是对底层架构的深刻理解。而这一次,聚光灯照在了中国工程师身上。