在 DeepSeek-R1 发布一周年之际,一段并非官方宣发、却分量十足的线索突然在技术社区引爆讨论。
DeepSeek 位于 GitHub 上的 FlashMLA 代码仓库,近期更新中被开发者发现出现了一个全新的模型标识符——MODEL1。它并非对现有模型的小幅扩展,而是以“独立分支”的方式,与当前使用的 DeepSeek-V3.2(代码中标记为 V32)并列存在。
从代码结构、算子设计以及硬件适配方向来看,这个 MODEL1 很可能不是一次常规升级,而是一场从模型架构到推理机制的系统性重构。业内普遍猜测,它极有可能就是传闻中的 DeepSeek V4 内部工程版本。
更巧合的是,这一代码动向,与外界流传的“DeepSeek 或将在农历新年前后发布新一代旗舰模型”的时间点高度重合。
MODEL1 现身:并非 V3 迭代,而是全新技术路线
从 FlashMLA 仓库的更新记录来看,MODEL1 在代码层级上并未继承 V3 系列,而是作为全新模型路径存在。
在 114 个相关文件中,至少有 28 处直接引用了 MODEL1,并且在推理逻辑、测试脚本、算子实现等关键模块中,均采用了与现有模型不同的处理方式。
这意味着,DeepSeek 很可能正在为下一代模型重新定义一整套底层机制,而不仅是调参或规模扩张。
关键变化一:稀疏 + 稠密并行的推理新范式
最直观的变化,出现在推理计算策略上。
在最新提交中,测试目录新增了两个重要文件:
- 稀疏解码测试
- 稠密解码测试
这直接表明,MODEL1 已经具备在推理阶段同时支持稀疏与稠密计算路径的能力。
更值得注意的是它的混合精度设计:
- KV Cache 使用 FP8 精度存储,显著降低显存占用
- 矩阵乘法仍保留 bfloat16 精度,以维持计算稳定性
这种设计思路非常明确: 在不牺牲核心计算精度的前提下,通过“选择性稀疏化”释放内存带宽,为超长上下文处理腾出空间。
这并非简单的工程优化,而是直接指向下一代模型在推理效率和上下文规模上的核心竞争力。
关键变化二:MLA 架构重塑,注意力维度全面调整
另一个引发讨论的点,来自注意力头参数维度的变化。
在公共头文件中,MODEL1 的注意力维度被设定为 512,而 DeepSeek V3.2 使用的是 576 维。
这背后并不是“缩减参数”这么简单。
V3 系列采用的是一种非对称设计:
- 128 维用于旋转位置编码
- 448 维用于隐层表达
而 MODEL1 统一切换到标准化的 512 维配置,意味着 MLA(多头隐式注意力)结构已被重新设计。
这种调整可能带来两种可能性:
- 隐层压缩与信息密度有实质性突破
- 架构主动向硬件友好型布局靠拢,为新一代 GPU 做准备
无论哪种,都指向一个结论:这是一次架构级,而非参数级的演进。
关键变化三:为 Blackwell 架构“量身定制”的优化路线
MODEL1 的代码中,出现了大量只服务于英伟达 Blackwell(SM100) 架构的接口与算子实现。
包括但不限于:
- 专用 Cutlass 前向算子
- 明确要求 CUDA 12.9 才能在 B200 GPU 上运行
- 针对 Blackwell 指令集的调度与内存访问优化
从测试数据来看,即便在尚未完全调优的状态下:
- B200 上的稀疏 MLA 算子性能已达到 350 TFLOPS
- 当前主流 H800 上,稠密 MLA 吞吐量可达 660 TFLOPS
这释放了一个强烈信号: DeepSeek 已不再是“模型写完再适配硬件”,而是与下一代算力平台同步演进。
Engram 机制浮现:记忆与推理协同的下一步?
在代码注释中,还出现了一个耐人寻味的关键词——Engram(记忆印记) 。
虽然具体实现尚未完全公开,但从其在分布式模块中的部署位置推测,它可能与以下方向有关:
- 高级 KV 压缩
- 分布式记忆调度
- 推理阶段的长期状态保留
不久前,DeepSeek 团队刚刚发布过 Engram 相关论文,讨论的是可扩展记忆与推理协同机制。
如果该机制最终被完整整合进 V4,那么这很可能意味着: 模型不只是“算得更快”,而是在记忆管理层面迈入新阶段。
不只是技术升级,而是一种信号
围绕 MODEL1 的讨论,已经迅速从技术社区扩散到全球 AI 圈。
有人直言,这可能是“下一次改变行业格局的时刻”。 也有人将其视为中国开源模型发展路径的一次关键转折。
回看一年前 DeepSeek-R1 发布后的连锁反应—— 它降低了高阶推理的工程门槛,改变了企业对开源模型的信任结构,也让“是否能做到”这个问题,变成了“如何把它做好”。
如果 MODEL1 真的是 V4 的雏形,那么可以预见的是: 下一代竞争,已经不再只是参数规模或榜单分数,而是架构、推理效率、硬件协同与工程可落地性的全面比拼。
DeepSeek,显然已经提前进入了这一阶段。