作为明星产品,必须得用放大镜看!
正值DeepSeek-R1 发布一周年之际,DeepSeek 在 GitHub 上悄悄更新了一波代码。
结果,眼尖的开发者在 DeepSeek 核心的推理优化库 FlashMLA 中,发现了一个此前从未公开过的神秘代号: “MODEL1” 。
目前,行业内普遍猜测,这极有可能就是DeepSeek即将发布的下一代旗舰模型。
而这次曝光的“MODEL1”,到底是什么来头?
首先,我们要知道它是怎么被发现的。
这次泄露的源头,来自DeepSeek的一个开源项目——FlashMLA。
可能大家对FlashMLA不太熟悉,这里给大家简单介绍一下。
这是DeepSeek自研工具,专门为英伟达GPU做深度优化。
正是有了它,DeepSeek才能在模型架构层面减少内存占用,把GPU硬件的性能榨干到极致,从而实现了“低成本高性能”。
而在最近更新的代码中,开发者们发现在横跨114个文件中,有28处都明确提到了“MODEL1”这个新标识符。
在代码逻辑里,“MODEL1”是与“V32”(也就是DeepSeek-V3.2)并列存在的。
这意味着,它绝不是V3版本的简单修补,而是一个采用了全新架构的独立模型。
根据技术大神的深度分析, “MODEL1”的核心变化主要体现在“回归标准”和“极致效率”上。
以前的V3模型,为了追求极致性能,采用了一种比较特殊的576维设计,而“MODEL1”则切换回了512维的标准配置。
这样做的好处非常明显:它能更好地适配英伟达下一代Blackwell(SM100)芯片。
不仅如此,“MODEL1”还引入了更高级的“稀疏化”技术。
在代码中,出现了大量针对FP8(8位浮点数)数据格式的解码支持,以及键值(KV)缓存的优化。
它能在处理极长内容时,智能地跳过不重要的计算步骤,同时利用FP8格式把记忆内容进行高保真压缩。
这直接带来的结果就是:内存 占用大幅降低,计算效率成倍提升。
这意味着,可以用更便宜的显卡,就能跑得动更强的模型。
那么,这个“MODEL1”到底是传说中的V4,还是推理模型R2?
目前行业内主要有两种看法。
一种观点认为,它是DeepSeek V4。
按照 DeepSeek 的命名惯例,在 V3.2 之后的旗舰级架构跨越,逻辑上即为 V4。
并且此前就有外媒报道,DeepSeek计划在2月(春节前后)发布新一代旗舰模型V4,且内部测试显示其编程能力已经超越了市场上的顶级模型。
另一种观点则认为,它是DeepSeek R2。
最近一个月,DeepSeek团队连续发布了两篇重磅技术论文,介绍了一种名为“优化残差连接(mHC)”的新训练方法,以及一种模仿生物大脑的“AI记忆模块(Engram)”。
如果“MODEL1”整合了这些最新的黑科技,让AI拥有了类似人类的记忆机制,那它极有可能就是备受期待的“推理之王”R2。
不论是V4还是R2,至少有一点可以确定,DeepSeek的新模型快发布了!
结合目前模型文件结构来看,“MODEL1”很可能已接近训练完成或推理部署阶段,正等待最终的权重冻结和测试验证。
这意味着,新模型的上线时间越来越近了。
那个曾在全球掀起波澜的“DeepSeek时刻”还会在今年重现吗?我们拭目以待!