Mythos架构开源！22岁天才复刻Anthropic黑箱，RDT架构真的改写了Scaling Law？Mythos架构

OpenMythos Architecture Cover

Mythos架构开源！22岁天才复刻Anthropic黑箱，RDT架构真的改写了Scaling Law？

四月的某个凌晨，GitHub上突然冒出来一个项目，短短七天，近百万人涌进去看热闹。

不是泄露，也不是内部员工叛逃带出来的代码。而是一个叫 Kye Gomez 的22岁创业者，纯靠读论文和第一性原理，硬是从零开始 reconstruction Anthropic捂得严严实实的Claude Mythos架构。

这事儿让人细思极恐的地方在于：原来闭源AI实验室的那点技术护城河，可能真没我们想的那么深。

我翻遍了OpenMythos的代码、Parcae那篇刚出炉的论文（arXiv:2604.12946），还有DeepSeek的一堆技术文档，试图搞清楚这场狂欢背后到底有几分真、几分炒作，以及它到底意味着什么。

一、循环深度Transformer：不堆参数，改"跑圈"

1.1 Scaling法则撞墙了

过去几年，大模型的发展就一条铁律：谁参数多谁牛逼。

GPT-3 175B → GPT-4 1.8T（据传）→ 各家疯狂堆料。但这条路走到现在，越来越不对劲。

训练一个前沿模型，几千万美元起步。参数堆上去了，效果提升却越来越不明显。更要命的是推理成本——用户每问一句话，模型得跑完整整几十层甚至上百层， latency 根本降不下来。

但仔细想想，人脑真不是这么干活的。我们遇到复杂问题，往往是翻来覆去地琢磨，不是一条道走到黑。既然人脑是"迭代式"思考，凭啥模型非得"线性递进"？

1.2 RDT到底是个啥

Kye Gomez的猜测是：Claude Mythos用的不是标准Transformer，而是一种叫Recurrent-Depth Transformer (RDT)的东西。

怎么理解？传统Transformer像盖高楼，一层一层往上堆，每层都有自己的权重矩阵。RDT更像是在操场上跑圈——同一套权重，在一次前向传播里最多跑16圈。每跑一圈，隐藏状态就更新一次，相当于模型"又多琢磨了一下"。

这里的关键区别：

传统CoT：每步都得生成可见的token，然后再喂回去
RDT：所有思考都在连续的潜空间里默默进行，不用吐出中间token

说白了，用时间换空间。你不需要买更多显卡来存参数，只需要让模型多转几圈。

二、三段式架构：一场精心编排的计算交响乐

OpenMythos把整个计算流程拆成了三段：

Input → Prelude（序曲）→ Recurrent Block（循环核心）× N → Coda（终章）→ Output

2.1 Prelude：先把输入"翻译"成模型能懂的语言

Prelude就是标准的Transformer层，只跑一次。它的任务很简单：把原始输入编码成隐藏表示。

e = Prelude(input_tokens)  # e是编码后的输入

为什么要保留这个编码？因为在循环计算里有个经典问题叫漂移（Drift）——跑了几圈之后，隐藏状态可能会慢慢偏离原始输入的意思。通过把e持续注入，模型始终能"记得"最初想解决什么问题。

2.2 Recurrent Block：整个架构的灵魂

这是OpenMythos最精妙的部分。每次循环的更新公式长这样：

h_{t+1} = A·h_t + B·e + Transformer(h_t, e)

这里头融合了三个关键思想：

LTI约束：矩阵A控制隐藏状态怎么演化。Parcae论文发现，必须强制A的谱半径小于1，不然训练的时候会直接爆炸。这相当于给系统装了个"稳定器"。

输入持续注入：矩阵B把原始编码e不断混进来，防止模型跑到歪路上去。

非线性变换：标准的Transformer计算让隐藏状态每次都能"想点新东西"。

自适应计算时间（ACT）：每个位置可以自己决定"我想明白了"然后提前退出。简单问题少转几圈，复杂问题多转几圈。

深度级LoRA适配器：虽然权重是共享的，但每次迭代可以通过LoRA做微调，让同一套权重产生不同的计算路径。

2.3 Coda：输出答案

循环结束后，Coda层把最终的隐藏状态解码成输出token。循环核心专心"思考"，Coda专心"表达"，各司其职。

三、MoE+循环：广度与深度的化学反应

光靠循环提供"深度"还不够。OpenMythos在Recurrent Block的每个FFN层都换成了MoE层，设计直接参考了DeepSeek-MoE的那套玩法：

细粒度专家：搞一堆小专家，每个只处理特定类型的模式
Top-K稀疏激活：每个token只叫醒K个专家，其他继续睡，控制计算量
共享专家始终在线：有几个"通用知识"专家一直在工作，不管什么输入都参与

但最精妙的地方在于：随着h_t在循环中不断演化，路由器在每一层循环深度会选择不同的专家子集。

想象一下：

第1圈：激活专家{A, B, C} → 识别问题类型
第2圈：激活专家{D, E, F} → 调用相关知识
第3圈：激活专家{G, H, I} → 逻辑推理
...
第16圈：激活专家{X, Y, Z} → 总结输出

同样的权重，完全不同的计算路径。MoE提供广度（并行专业知识），循环提供深度（迭代推理），两者一结合，产生了1+1>2的效果。

这跟人类思考还真有点像——不同思考阶段调用不同的知识模块。

四、MLA：KV Cache的"瘦身术"

OpenMythos还顺手抄了DeepSeek-V2的另一个大招——Multi-Latent Attention (MLA)。

标准Transformer推理时，KV Cache是个内存黑洞：

KV Cache = batch_size × seq_len × num_heads × head_dim × 2 × num_layers

上下文一长，这玩意直接爆炸。

MLA的做法很聪明——压缩。它把Key和Value压缩成一个低维的潜向量，用的时候再解压：

# 标准MHA：存储完整的K, V矩阵
K, V = W_K(x), W_V(x)  # 形状: [batch, seq, num_heads, head_dim]

# MLA：压缩成潜向量，用时再解压
c_KV = W_D_KV(x)       # 压缩后：[batch, seq, latent_dim]，latent_dim远小于原来
K, V = W_U_K(c_KV), W_U_V(c_KV)  # 解压回各个头需要的形状

核心洞察：没必要为每个注意力头都存独立的KV，存一个共享的潜向量，用的时候投影一下就行。DeepSeek-V2的实验显示，这招能压缩10-20倍的KV Cache。

对于长上下文场景，这差距就是能跑和不能跑的区别。

五、实验数据：770M参数真的能干1.3B的活？

5.1 Parcae论文的硬核验证

OpenMythos吹得天花乱坠，有没有实锤？有。

Parcae: Scaling Laws For Stable Looped Language Models（arXiv:2604.12946，2026年4月刚发）提供了一手实验数据。研究团队在FineWeb-Edu数据集上训练了一系列模型：

模型	参数量	验证PPL ↓	Core Score ↑	Core-Extended ↑
Transformer	770M	13.08	22.42	14.20
Parcae	770M	12.49	25.07	15.19
Transformer	1.3B	11.95	25.45	-

770M的Parcae，Core Score 25.07，几乎追平了1.3B标准Transformer的25.45。差距只有0.38分，但参数少了一半。

验证困惑度（PPL）上，Parcae的12.49也比Transformer的13.08低了6.3%。

这不是嘴炮，是实打实的数据。

5.2 训练稳定性终于搞定了

循环架构有个老毛病：训练不稳定，动不动就loss爆炸。

Parcae论文里解释得很清楚：

"之前的循环架构饱受残差状态爆炸和loss spike困扰，根源是注入参数的谱半径太大。"

他们的解决方案很巧妙——负对角参数化：

A = -exp(diag_param)  # 这样特征值肯定是负的
spectral_radius = max(|eigenvalues(A)|) < 1  # 强制谱半径小于1

这招让Parcae在很宽的学习率范围内都能稳定训练，而之前的循环模型很容易就跑飞了。

六、Scaling Laws被改写了

Parcae论文最硬核的贡献，是提出了循环架构自己的Scaling Laws。

6.1 训练时怎么扩

固定参数量，增加循环深度T：

性能 ∝ (T × data)^α

实验发现个有意思的事：循环深度和数据得一起增加。光加循环不加数据，收益很有限。最优策略是T和数据同步扩大。

6.2 推理时还能继续扩

更刺激的是test-time compute scaling——推理的时候还能继续加计算。

Parcae发现，推理时增加循环次数T，性能遵循可预测的对数线性提升：

性能增益 ∝ log(T)

这意味着什么？

一个3.5B参数的RDT，推理时多跑几圈，FLOPs能追上32B参数的Transformer
简单问题少跑几圈，响应快；复杂问题多跑几圈，想得深
计算资源可以根据任务难度动态分配

这跟OpenAI的o1、DeepSeek-R1的"推理时扩展"思路不谋而合。未来的模型可能更像"可编程的推理引擎"，而不是固定的模式匹配器。

七、先别急着高潮：OpenMythos的坑在哪

尽管OpenMythos看着很香，但作为逆向工程，它有不少没被验证的假设：

7.1 架构猜测靠谱吗？

Kye Gomez自己承认：

"这是基于第一性原理和同行评议文献的理论重建...不是泄露或逆向工程出来的。"

问题在哪：

Anthropic从来没说过Claude Mythos用RDT架构
现在的证据都是间接的（性能特征、公开演讲的暗示）
OpenMythos可能是"过度解读"，甚至完全猜错了

7.2 训练细节才是大头

OpenMythos只给了架构代码，但训出好模型不光靠架构：

数据配比（code vs text vs reasoning）怎么调？
课程学习策略怎么做？
RLHF/RLAIF的具体玩法？
分布式训练的基础设施优化？

这些"secret sauce"往往比架构本身更重要。OpenMythos没碰这些。

7.3 评估也不完整

现在的开源实现缺了不少东西：

大规模人类评估
安全性测试
长上下文能力验证
多模态能力测试

说白了，现在就是个小demo，离真正的Claude Mythos差得远。

八、闭源那套玩不转了

8.1 技术民主化在加速

OpenMythos这事的深层含义：前沿AI架构的保密窗口期正在快速缩小。

以前，GPT-3、GPT-4的架构细节能捂好几年。但现在：

DeepSeek-V3开源，MoE+MLA成了公开知识
Parcae论文发出来，循环架构的训练技巧透明了
OpenMythos这么一搞，连Claude Mythos这种"神秘"架构都有人敢猜、敢开源

Dario Amodei在FT采访里直接承认：

"中国将在12个月内完全复刻出具备Claude Mythos级别能力的大模型。"

闭源实验室的优势正在肉眼可见地消失。

8.2 护城河得重新定义

如果架构本身守不住了，那什么还能守？

几个可能的答案：

数据质量：独家的数据来源和清洗pipeline
算力规模：训万亿参数模型需要的资源
对齐技术：RLHF那套微妙的艺术
产品生态：用户反馈的飞轮效应
人才密度：顶级研究人员的聚集

Anthropic真正的护城河可能从来不在架构，而在怎么把这个架构玩到极限。

九、RDT本身值得看

抛开Claude Mythos的争议，RDT这个架构方向本身就很有意思。

9.1 效率革命

对于资源受限的场景（边缘设备、消费级GPU），RDT打开了新的可能性：

同样性能，一半参数 → 推理成本大幅降低
同样参数，可调深度 → 灵活控制性能-延迟的权衡

这对于消费级硬件是颠覆性的利好。以前跑个像样的模型，没有A100连门都进不了。现在可能只需要多点耐心，让模型多转几圈。

9.2 推理时计算崛起

2024-2025年的关键趋势是从"训练时Scaling"转向"推理时Scaling"：

OpenAI o1/o3：推理时链式思考
DeepSeek-R1：RL驱动的推理能力
RDT架构：用循环深度作为推理预算

模型正在从"训练完就固定"的模式，转向"推理时还能继续扩展"的模式。

9.3 开放研究的价值

OpenMythos这事证明了开放科学的力量：

DeepSeek开源论文，全球研究者站在同一肩膀上
Parcae严谨实验，给循环架构提供了理论基础
社区驱动的逆向工程，加速了知识传播

这跟"闭源黑箱"的模式形成了鲜明对比。

结语：彩虹没有尽头

说到底，OpenMythos这件事最值得关注的地方，不是它是否真的"复刻"了Claude Mythos，而是它让整个社区开始认真思考循环深度Transformer的潜力。

一个22岁的小伙子，用几百行PyTorch代码，把原本藏在闭源实验室里的技术假设，变成了任何人都能下载、实验、改进、吐槽的开放项目。这就是开源精神最内核的价值。

Dario Amodei有句话说得好：

"彩虹没有尽头，只有彩虹本身。"

技术进步这事，本来就没有终点。重要的不是谁第一个冲线，而是大家怎么一起把边界往前推。

OpenMythos可能只是个开始。但它提醒我们：在AI这场漫长的探索里，好奇心、开放性和协作精神，永远比藏着掖着的黑箱更有力量。

参考链接

OpenMythos代码: github.com/kyegomez/Op…
Parcae论文 (arXiv:2604.12946): arxiv.org/abs/2604.12…
DeepSeek-MoE (ACL 2024): arxiv.org/abs/2401.06…
DeepSeek-V2: arxiv.org/abs/2405.04…
Kye Gomez推文: x.com/KyeGomezB/s…

注：本文基于公开技术资料整理，部分内容为推测性分析，不代表Anthropic或任何相关方立场。