Mythos架构开源!22岁天才复刻Anthropic黑箱,RDT架构真的改写了Scaling Law?

0 阅读12分钟

OpenMythos Architecture Cover

Mythos架构开源!22岁天才复刻Anthropic黑箱,RDT架构真的改写了Scaling Law?

四月的某个凌晨,GitHub上突然冒出来一个项目,短短七天,近百万人涌进去看热闹。

不是泄露,也不是内部员工叛逃带出来的代码。而是一个叫 Kye Gomez 的22岁创业者,纯靠读论文和第一性原理,硬是从零开始 reconstruction Anthropic捂得严严实实的Claude Mythos架构。

这事儿让人细思极恐的地方在于:原来闭源AI实验室的那点技术护城河,可能真没我们想的那么深。

我翻遍了OpenMythos的代码、Parcae那篇刚出炉的论文(arXiv:2604.12946),还有DeepSeek的一堆技术文档,试图搞清楚这场狂欢背后到底有几分真、几分炒作,以及它到底意味着什么。


一、循环深度Transformer:不堆参数,改"跑圈"

1.1 Scaling法则撞墙了

过去几年,大模型的发展就一条铁律:谁参数多谁牛逼。

GPT-3 175B → GPT-4 1.8T(据传)→ 各家疯狂堆料。但这条路走到现在,越来越不对劲。

训练一个前沿模型,几千万美元起步。参数堆上去了,效果提升却越来越不明显。更要命的是推理成本——用户每问一句话,模型得跑完整整几十层甚至上百层, latency 根本降不下来。

但仔细想想,人脑真不是这么干活的。我们遇到复杂问题,往往是翻来覆去地琢磨,不是一条道走到黑。既然人脑是"迭代式"思考,凭啥模型非得"线性递进"?

1.2 RDT到底是个啥

Kye Gomez的猜测是:Claude Mythos用的不是标准Transformer,而是一种叫Recurrent-Depth Transformer (RDT)的东西。

怎么理解?传统Transformer像盖高楼,一层一层往上堆,每层都有自己的权重矩阵。RDT更像是在操场上跑圈——同一套权重,在一次前向传播里最多跑16圈。每跑一圈,隐藏状态就更新一次,相当于模型"又多琢磨了一下"。

这里的关键区别:

  • 传统CoT:每步都得生成可见的token,然后再喂回去
  • RDT:所有思考都在连续的潜空间里默默进行,不用吐出中间token

说白了,用时间换空间。你不需要买更多显卡来存参数,只需要让模型多转几圈。


二、三段式架构:一场精心编排的计算交响乐

OpenMythos把整个计算流程拆成了三段:

Input → Prelude(序曲)→ Recurrent Block(循环核心)× N → Coda(终章)→ Output

2.1 Prelude:先把输入"翻译"成模型能懂的语言

Prelude就是标准的Transformer层,只跑一次。它的任务很简单:把原始输入编码成隐藏表示。

e = Prelude(input_tokens)  # e是编码后的输入

为什么要保留这个编码?因为在循环计算里有个经典问题叫漂移(Drift)——跑了几圈之后,隐藏状态可能会慢慢偏离原始输入的意思。通过把e持续注入,模型始终能"记得"最初想解决什么问题。

2.2 Recurrent Block:整个架构的灵魂

这是OpenMythos最精妙的部分。每次循环的更新公式长这样:

h_{t+1} = A·h_t + B·e + Transformer(h_t, e)

这里头融合了三个关键思想:

LTI约束:矩阵A控制隐藏状态怎么演化。Parcae论文发现,必须强制A的谱半径小于1,不然训练的时候会直接爆炸。这相当于给系统装了个"稳定器"。

输入持续注入:矩阵B把原始编码e不断混进来,防止模型跑到歪路上去。

非线性变换:标准的Transformer计算让隐藏状态每次都能"想点新东西"。

自适应计算时间(ACT):每个位置可以自己决定"我想明白了"然后提前退出。简单问题少转几圈,复杂问题多转几圈。

深度级LoRA适配器:虽然权重是共享的,但每次迭代可以通过LoRA做微调,让同一套权重产生不同的计算路径。

2.3 Coda:输出答案

循环结束后,Coda层把最终的隐藏状态解码成输出token。循环核心专心"思考",Coda专心"表达",各司其职。


三、MoE+循环:广度与深度的化学反应

光靠循环提供"深度"还不够。OpenMythos在Recurrent Block的每个FFN层都换成了MoE层,设计直接参考了DeepSeek-MoE的那套玩法:

  • 细粒度专家:搞一堆小专家,每个只处理特定类型的模式
  • Top-K稀疏激活:每个token只叫醒K个专家,其他继续睡,控制计算量
  • 共享专家始终在线:有几个"通用知识"专家一直在工作,不管什么输入都参与

但最精妙的地方在于:随着h_t在循环中不断演化,路由器在每一层循环深度会选择不同的专家子集

想象一下:

  • 第1圈:激活专家{A, B, C} → 识别问题类型
  • 第2圈:激活专家{D, E, F} → 调用相关知识
  • 第3圈:激活专家{G, H, I} → 逻辑推理
  • ...
  • 第16圈:激活专家{X, Y, Z} → 总结输出

同样的权重,完全不同的计算路径。MoE提供广度(并行专业知识),循环提供深度(迭代推理),两者一结合,产生了1+1>2的效果。

这跟人类思考还真有点像——不同思考阶段调用不同的知识模块。


四、MLA:KV Cache的"瘦身术"

OpenMythos还顺手抄了DeepSeek-V2的另一个大招——Multi-Latent Attention (MLA)

标准Transformer推理时,KV Cache是个内存黑洞:

KV Cache = batch_size × seq_len × num_heads × head_dim × 2 × num_layers

上下文一长,这玩意直接爆炸。

MLA的做法很聪明——压缩。它把Key和Value压缩成一个低维的潜向量,用的时候再解压:

# 标准MHA:存储完整的K, V矩阵
K, V = W_K(x), W_V(x)  # 形状: [batch, seq, num_heads, head_dim]

# MLA:压缩成潜向量,用时再解压
c_KV = W_D_KV(x)       # 压缩后:[batch, seq, latent_dim],latent_dim远小于原来
K, V = W_U_K(c_KV), W_U_V(c_KV)  # 解压回各个头需要的形状

核心洞察:没必要为每个注意力头都存独立的KV,存一个共享的潜向量,用的时候投影一下就行。DeepSeek-V2的实验显示,这招能压缩10-20倍的KV Cache

对于长上下文场景,这差距就是能跑和不能跑的区别。


五、实验数据:770M参数真的能干1.3B的活?

5.1 Parcae论文的硬核验证

OpenMythos吹得天花乱坠,有没有实锤?有。

Parcae: Scaling Laws For Stable Looped Language Models(arXiv:2604.12946,2026年4月刚发)提供了一手实验数据。研究团队在FineWeb-Edu数据集上训练了一系列模型:

模型参数量验证PPL ↓Core Score ↑Core-Extended ↑
Transformer770M13.0822.4214.20
Parcae770M12.4925.0715.19
Transformer1.3B11.9525.45-

770M的Parcae,Core Score 25.07,几乎追平了1.3B标准Transformer的25.45。差距只有0.38分,但参数少了一半。

验证困惑度(PPL)上,Parcae的12.49也比Transformer的13.08低了6.3%。

这不是嘴炮,是实打实的数据。

5.2 训练稳定性终于搞定了

循环架构有个老毛病:训练不稳定,动不动就loss爆炸。

Parcae论文里解释得很清楚:

"之前的循环架构饱受残差状态爆炸和loss spike困扰,根源是注入参数的谱半径太大。"

他们的解决方案很巧妙——负对角参数化

A = -exp(diag_param)  # 这样特征值肯定是负的
spectral_radius = max(|eigenvalues(A)|) < 1  # 强制谱半径小于1

这招让Parcae在很宽的学习率范围内都能稳定训练,而之前的循环模型很容易就跑飞了。


六、Scaling Laws被改写了

Parcae论文最硬核的贡献,是提出了循环架构自己的Scaling Laws

6.1 训练时怎么扩

固定参数量,增加循环深度T:

性能 ∝ (T × data)^α

实验发现个有意思的事:循环深度和数据得一起增加。光加循环不加数据,收益很有限。最优策略是T和数据同步扩大。

6.2 推理时还能继续扩

更刺激的是test-time compute scaling——推理的时候还能继续加计算。

Parcae发现,推理时增加循环次数T,性能遵循可预测的对数线性提升

性能增益 ∝ log(T)

这意味着什么?

  • 一个3.5B参数的RDT,推理时多跑几圈,FLOPs能追上32B参数的Transformer
  • 简单问题少跑几圈,响应快;复杂问题多跑几圈,想得深
  • 计算资源可以根据任务难度动态分配

这跟OpenAI的o1、DeepSeek-R1的"推理时扩展"思路不谋而合。未来的模型可能更像"可编程的推理引擎",而不是固定的模式匹配器。


七、先别急着高潮:OpenMythos的坑在哪

尽管OpenMythos看着很香,但作为逆向工程,它有不少没被验证的假设

7.1 架构猜测靠谱吗?

Kye Gomez自己承认:

"这是基于第一性原理和同行评议文献的理论重建...不是泄露或逆向工程出来的。"

问题在哪

  • Anthropic从来没说过Claude Mythos用RDT架构
  • 现在的证据都是间接的(性能特征、公开演讲的暗示)
  • OpenMythos可能是"过度解读",甚至完全猜错了

7.2 训练细节才是大头

OpenMythos只给了架构代码,但训出好模型不光靠架构

  • 数据配比(code vs text vs reasoning)怎么调?
  • 课程学习策略怎么做?
  • RLHF/RLAIF的具体玩法?
  • 分布式训练的基础设施优化?

这些"secret sauce"往往比架构本身更重要。OpenMythos没碰这些。

7.3 评估也不完整

现在的开源实现缺了不少东西:

  • 大规模人类评估
  • 安全性测试
  • 长上下文能力验证
  • 多模态能力测试

说白了,现在就是个小demo,离真正的Claude Mythos差得远。


八、闭源那套玩不转了

8.1 技术民主化在加速

OpenMythos这事的深层含义:前沿AI架构的保密窗口期正在快速缩小。

以前,GPT-3、GPT-4的架构细节能捂好几年。但现在:

  • DeepSeek-V3开源,MoE+MLA成了公开知识
  • Parcae论文发出来,循环架构的训练技巧透明了
  • OpenMythos这么一搞,连Claude Mythos这种"神秘"架构都有人敢猜、敢开源

Dario Amodei在FT采访里直接承认:

"中国将在12个月内完全复刻出具备Claude Mythos级别能力的大模型。"

闭源实验室的优势正在肉眼可见地消失。

8.2 护城河得重新定义

如果架构本身守不住了,那什么还能守?

几个可能的答案

  1. 数据质量:独家的数据来源和清洗pipeline
  2. 算力规模:训万亿参数模型需要的资源
  3. 对齐技术:RLHF那套微妙的艺术
  4. 产品生态:用户反馈的飞轮效应
  5. 人才密度:顶级研究人员的聚集

Anthropic真正的护城河可能从来不在架构,而在怎么把这个架构玩到极限


九、RDT本身值得看

抛开Claude Mythos的争议,RDT这个架构方向本身就很有意思

9.1 效率革命

对于资源受限的场景(边缘设备、消费级GPU),RDT打开了新的可能性:

同样性能,一半参数 → 推理成本大幅降低
同样参数,可调深度 → 灵活控制性能-延迟的权衡

这对于消费级硬件是颠覆性的利好。以前跑个像样的模型,没有A100连门都进不了。现在可能只需要多点耐心,让模型多转几圈。

9.2 推理时计算崛起

2024-2025年的关键趋势是从"训练时Scaling"转向"推理时Scaling"

  • OpenAI o1/o3:推理时链式思考
  • DeepSeek-R1:RL驱动的推理能力
  • RDT架构:用循环深度作为推理预算

模型正在从"训练完就固定"的模式,转向"推理时还能继续扩展"的模式。

9.3 开放研究的价值

OpenMythos这事证明了开放科学的力量

  • DeepSeek开源论文,全球研究者站在同一肩膀上
  • Parcae严谨实验,给循环架构提供了理论基础
  • 社区驱动的逆向工程,加速了知识传播

这跟"闭源黑箱"的模式形成了鲜明对比。


结语:彩虹没有尽头

说到底,OpenMythos这件事最值得关注的地方,不是它是否真的"复刻"了Claude Mythos,而是它让整个社区开始认真思考循环深度Transformer的潜力

一个22岁的小伙子,用几百行PyTorch代码,把原本藏在闭源实验室里的技术假设,变成了任何人都能下载、实验、改进、吐槽的开放项目。这就是开源精神最内核的价值。

Dario Amodei有句话说得好:

"彩虹没有尽头,只有彩虹本身。"

技术进步这事,本来就没有终点。重要的不是谁第一个冲线,而是大家怎么一起把边界往前推。

OpenMythos可能只是个开始。但它提醒我们:在AI这场漫长的探索里,好奇心、开放性和协作精神,永远比藏着掖着的黑箱更有力量


参考链接

  1. OpenMythos代码: github.com/kyegomez/Op…
  2. Parcae论文 (arXiv:2604.12946): arxiv.org/abs/2604.12…
  3. DeepSeek-MoE (ACL 2024): arxiv.org/abs/2401.06…
  4. DeepSeek-V2: arxiv.org/abs/2405.04…
  5. Kye Gomez推文: x.com/KyeGomezB/s…

注:本文基于公开技术资料整理,部分内容为推测性分析,不代表Anthropic或任何相关方立场。