Mythos架构开源!22岁天才复刻Anthropic黑箱,RDT架构真的改写了Scaling Law?
四月的某个凌晨,GitHub上突然冒出来一个项目,短短七天,近百万人涌进去看热闹。
不是泄露,也不是内部员工叛逃带出来的代码。而是一个叫 Kye Gomez 的22岁创业者,纯靠读论文和第一性原理,硬是从零开始 reconstruction Anthropic捂得严严实实的Claude Mythos架构。
这事儿让人细思极恐的地方在于:原来闭源AI实验室的那点技术护城河,可能真没我们想的那么深。
我翻遍了OpenMythos的代码、Parcae那篇刚出炉的论文(arXiv:2604.12946),还有DeepSeek的一堆技术文档,试图搞清楚这场狂欢背后到底有几分真、几分炒作,以及它到底意味着什么。
一、循环深度Transformer:不堆参数,改"跑圈"
1.1 Scaling法则撞墙了
过去几年,大模型的发展就一条铁律:谁参数多谁牛逼。
GPT-3 175B → GPT-4 1.8T(据传)→ 各家疯狂堆料。但这条路走到现在,越来越不对劲。
训练一个前沿模型,几千万美元起步。参数堆上去了,效果提升却越来越不明显。更要命的是推理成本——用户每问一句话,模型得跑完整整几十层甚至上百层, latency 根本降不下来。
但仔细想想,人脑真不是这么干活的。我们遇到复杂问题,往往是翻来覆去地琢磨,不是一条道走到黑。既然人脑是"迭代式"思考,凭啥模型非得"线性递进"?
1.2 RDT到底是个啥
Kye Gomez的猜测是:Claude Mythos用的不是标准Transformer,而是一种叫Recurrent-Depth Transformer (RDT)的东西。
怎么理解?传统Transformer像盖高楼,一层一层往上堆,每层都有自己的权重矩阵。RDT更像是在操场上跑圈——同一套权重,在一次前向传播里最多跑16圈。每跑一圈,隐藏状态就更新一次,相当于模型"又多琢磨了一下"。
这里的关键区别:
- 传统CoT:每步都得生成可见的token,然后再喂回去
- RDT:所有思考都在连续的潜空间里默默进行,不用吐出中间token
说白了,用时间换空间。你不需要买更多显卡来存参数,只需要让模型多转几圈。
二、三段式架构:一场精心编排的计算交响乐
OpenMythos把整个计算流程拆成了三段:
Input → Prelude(序曲)→ Recurrent Block(循环核心)× N → Coda(终章)→ Output
2.1 Prelude:先把输入"翻译"成模型能懂的语言
Prelude就是标准的Transformer层,只跑一次。它的任务很简单:把原始输入编码成隐藏表示。
e = Prelude(input_tokens) # e是编码后的输入
为什么要保留这个编码?因为在循环计算里有个经典问题叫漂移(Drift)——跑了几圈之后,隐藏状态可能会慢慢偏离原始输入的意思。通过把e持续注入,模型始终能"记得"最初想解决什么问题。
2.2 Recurrent Block:整个架构的灵魂
这是OpenMythos最精妙的部分。每次循环的更新公式长这样:
h_{t+1} = A·h_t + B·e + Transformer(h_t, e)
这里头融合了三个关键思想:
LTI约束:矩阵A控制隐藏状态怎么演化。Parcae论文发现,必须强制A的谱半径小于1,不然训练的时候会直接爆炸。这相当于给系统装了个"稳定器"。
输入持续注入:矩阵B把原始编码e不断混进来,防止模型跑到歪路上去。
非线性变换:标准的Transformer计算让隐藏状态每次都能"想点新东西"。
自适应计算时间(ACT):每个位置可以自己决定"我想明白了"然后提前退出。简单问题少转几圈,复杂问题多转几圈。
深度级LoRA适配器:虽然权重是共享的,但每次迭代可以通过LoRA做微调,让同一套权重产生不同的计算路径。
2.3 Coda:输出答案
循环结束后,Coda层把最终的隐藏状态解码成输出token。循环核心专心"思考",Coda专心"表达",各司其职。
三、MoE+循环:广度与深度的化学反应
光靠循环提供"深度"还不够。OpenMythos在Recurrent Block的每个FFN层都换成了MoE层,设计直接参考了DeepSeek-MoE的那套玩法:
- 细粒度专家:搞一堆小专家,每个只处理特定类型的模式
- Top-K稀疏激活:每个token只叫醒K个专家,其他继续睡,控制计算量
- 共享专家始终在线:有几个"通用知识"专家一直在工作,不管什么输入都参与
但最精妙的地方在于:随着h_t在循环中不断演化,路由器在每一层循环深度会选择不同的专家子集。
想象一下:
- 第1圈:激活专家{A, B, C} → 识别问题类型
- 第2圈:激活专家{D, E, F} → 调用相关知识
- 第3圈:激活专家{G, H, I} → 逻辑推理
- ...
- 第16圈:激活专家{X, Y, Z} → 总结输出
同样的权重,完全不同的计算路径。MoE提供广度(并行专业知识),循环提供深度(迭代推理),两者一结合,产生了1+1>2的效果。
这跟人类思考还真有点像——不同思考阶段调用不同的知识模块。
四、MLA:KV Cache的"瘦身术"
OpenMythos还顺手抄了DeepSeek-V2的另一个大招——Multi-Latent Attention (MLA)。
标准Transformer推理时,KV Cache是个内存黑洞:
KV Cache = batch_size × seq_len × num_heads × head_dim × 2 × num_layers
上下文一长,这玩意直接爆炸。
MLA的做法很聪明——压缩。它把Key和Value压缩成一个低维的潜向量,用的时候再解压:
# 标准MHA:存储完整的K, V矩阵
K, V = W_K(x), W_V(x) # 形状: [batch, seq, num_heads, head_dim]
# MLA:压缩成潜向量,用时再解压
c_KV = W_D_KV(x) # 压缩后:[batch, seq, latent_dim],latent_dim远小于原来
K, V = W_U_K(c_KV), W_U_V(c_KV) # 解压回各个头需要的形状
核心洞察:没必要为每个注意力头都存独立的KV,存一个共享的潜向量,用的时候投影一下就行。DeepSeek-V2的实验显示,这招能压缩10-20倍的KV Cache。
对于长上下文场景,这差距就是能跑和不能跑的区别。
五、实验数据:770M参数真的能干1.3B的活?
5.1 Parcae论文的硬核验证
OpenMythos吹得天花乱坠,有没有实锤?有。
Parcae: Scaling Laws For Stable Looped Language Models(arXiv:2604.12946,2026年4月刚发)提供了一手实验数据。研究团队在FineWeb-Edu数据集上训练了一系列模型:
| 模型 | 参数量 | 验证PPL ↓ | Core Score ↑ | Core-Extended ↑ |
|---|---|---|---|---|
| Transformer | 770M | 13.08 | 22.42 | 14.20 |
| Parcae | 770M | 12.49 | 25.07 | 15.19 |
| Transformer | 1.3B | 11.95 | 25.45 | - |
770M的Parcae,Core Score 25.07,几乎追平了1.3B标准Transformer的25.45。差距只有0.38分,但参数少了一半。
验证困惑度(PPL)上,Parcae的12.49也比Transformer的13.08低了6.3%。
这不是嘴炮,是实打实的数据。
5.2 训练稳定性终于搞定了
循环架构有个老毛病:训练不稳定,动不动就loss爆炸。
Parcae论文里解释得很清楚:
"之前的循环架构饱受残差状态爆炸和loss spike困扰,根源是注入参数的谱半径太大。"
他们的解决方案很巧妙——负对角参数化:
A = -exp(diag_param) # 这样特征值肯定是负的
spectral_radius = max(|eigenvalues(A)|) < 1 # 强制谱半径小于1
这招让Parcae在很宽的学习率范围内都能稳定训练,而之前的循环模型很容易就跑飞了。
六、Scaling Laws被改写了
Parcae论文最硬核的贡献,是提出了循环架构自己的Scaling Laws。
6.1 训练时怎么扩
固定参数量,增加循环深度T:
性能 ∝ (T × data)^α
实验发现个有意思的事:循环深度和数据得一起增加。光加循环不加数据,收益很有限。最优策略是T和数据同步扩大。
6.2 推理时还能继续扩
更刺激的是test-time compute scaling——推理的时候还能继续加计算。
Parcae发现,推理时增加循环次数T,性能遵循可预测的对数线性提升:
性能增益 ∝ log(T)
这意味着什么?
- 一个3.5B参数的RDT,推理时多跑几圈,FLOPs能追上32B参数的Transformer
- 简单问题少跑几圈,响应快;复杂问题多跑几圈,想得深
- 计算资源可以根据任务难度动态分配
这跟OpenAI的o1、DeepSeek-R1的"推理时扩展"思路不谋而合。未来的模型可能更像"可编程的推理引擎",而不是固定的模式匹配器。
七、先别急着高潮:OpenMythos的坑在哪
尽管OpenMythos看着很香,但作为逆向工程,它有不少没被验证的假设:
7.1 架构猜测靠谱吗?
Kye Gomez自己承认:
"这是基于第一性原理和同行评议文献的理论重建...不是泄露或逆向工程出来的。"
问题在哪:
- Anthropic从来没说过Claude Mythos用RDT架构
- 现在的证据都是间接的(性能特征、公开演讲的暗示)
- OpenMythos可能是"过度解读",甚至完全猜错了
7.2 训练细节才是大头
OpenMythos只给了架构代码,但训出好模型不光靠架构:
- 数据配比(code vs text vs reasoning)怎么调?
- 课程学习策略怎么做?
- RLHF/RLAIF的具体玩法?
- 分布式训练的基础设施优化?
这些"secret sauce"往往比架构本身更重要。OpenMythos没碰这些。
7.3 评估也不完整
现在的开源实现缺了不少东西:
- 大规模人类评估
- 安全性测试
- 长上下文能力验证
- 多模态能力测试
说白了,现在就是个小demo,离真正的Claude Mythos差得远。
八、闭源那套玩不转了
8.1 技术民主化在加速
OpenMythos这事的深层含义:前沿AI架构的保密窗口期正在快速缩小。
以前,GPT-3、GPT-4的架构细节能捂好几年。但现在:
- DeepSeek-V3开源,MoE+MLA成了公开知识
- Parcae论文发出来,循环架构的训练技巧透明了
- OpenMythos这么一搞,连Claude Mythos这种"神秘"架构都有人敢猜、敢开源
Dario Amodei在FT采访里直接承认:
"中国将在12个月内完全复刻出具备Claude Mythos级别能力的大模型。"
闭源实验室的优势正在肉眼可见地消失。
8.2 护城河得重新定义
如果架构本身守不住了,那什么还能守?
几个可能的答案:
- 数据质量:独家的数据来源和清洗pipeline
- 算力规模:训万亿参数模型需要的资源
- 对齐技术:RLHF那套微妙的艺术
- 产品生态:用户反馈的飞轮效应
- 人才密度:顶级研究人员的聚集
Anthropic真正的护城河可能从来不在架构,而在怎么把这个架构玩到极限。
九、RDT本身值得看
抛开Claude Mythos的争议,RDT这个架构方向本身就很有意思。
9.1 效率革命
对于资源受限的场景(边缘设备、消费级GPU),RDT打开了新的可能性:
同样性能,一半参数 → 推理成本大幅降低
同样参数,可调深度 → 灵活控制性能-延迟的权衡
这对于消费级硬件是颠覆性的利好。以前跑个像样的模型,没有A100连门都进不了。现在可能只需要多点耐心,让模型多转几圈。
9.2 推理时计算崛起
2024-2025年的关键趋势是从"训练时Scaling"转向"推理时Scaling":
- OpenAI o1/o3:推理时链式思考
- DeepSeek-R1:RL驱动的推理能力
- RDT架构:用循环深度作为推理预算
模型正在从"训练完就固定"的模式,转向"推理时还能继续扩展"的模式。
9.3 开放研究的价值
OpenMythos这事证明了开放科学的力量:
- DeepSeek开源论文,全球研究者站在同一肩膀上
- Parcae严谨实验,给循环架构提供了理论基础
- 社区驱动的逆向工程,加速了知识传播
这跟"闭源黑箱"的模式形成了鲜明对比。
结语:彩虹没有尽头
说到底,OpenMythos这件事最值得关注的地方,不是它是否真的"复刻"了Claude Mythos,而是它让整个社区开始认真思考循环深度Transformer的潜力。
一个22岁的小伙子,用几百行PyTorch代码,把原本藏在闭源实验室里的技术假设,变成了任何人都能下载、实验、改进、吐槽的开放项目。这就是开源精神最内核的价值。
Dario Amodei有句话说得好:
"彩虹没有尽头,只有彩虹本身。"
技术进步这事,本来就没有终点。重要的不是谁第一个冲线,而是大家怎么一起把边界往前推。
OpenMythos可能只是个开始。但它提醒我们:在AI这场漫长的探索里,好奇心、开放性和协作精神,永远比藏着掖着的黑箱更有力量。
参考链接
- OpenMythos代码: github.com/kyegomez/Op…
- Parcae论文 (arXiv:2604.12946): arxiv.org/abs/2604.12…
- DeepSeek-MoE (ACL 2024): arxiv.org/abs/2401.06…
- DeepSeek-V2: arxiv.org/abs/2405.04…
- Kye Gomez推文: x.com/KyeGomezB/s…
注:本文基于公开技术资料整理,部分内容为推测性分析,不代表Anthropic或任何相关方立场。