从传闻到结构:OpenMythos 对 Claude Mythos 的理论重建

5 阅读5分钟

当 Claude Mythos 用“发现成千上万零日漏洞”的新闻刷屏时,行业很容易掉进一种熟悉的情绪:
一边惊叹黑箱系统的能力,一边反复追问“它到底怎么做到的”,最后停在猜测。

这次有点不一样。
22 岁开发者 Kye Gomez 用 OpenMythos 给了一个更硬核的回应:既然核心架构没公开,那就基于公开论文和工程常识,把“神话叙事”重写成可运行假说。

这不是“像不像官方”的八卦游戏,而更像一次工程版的理论物理实验:
先提出结构假说,再给实验装置,再把可证伪点摆到台面上。


一、Mythos可能是什么(参考 OpenMythos 的 Summary)

先把边界说清:这里不是官方定稿,只是高不确定、可验证的架构画像。
但这张画像至少把讨论从“玄学强大”拉回“工程变量”。

1) 架构主干:RDT/Looped Transformer

  • Prelude -> Looped Recurrent Block -> Coda
  • 在 latent 空间多轮迭代,不逐步输出中间 token
  • 通过增加 loops 获取更深推理,收益可能边际递减

2) 参数与计算拆分:MoE 让“大”和“重”不再等号

  • FFN 可能叠加细粒度 MoE + 共享专家
  • 总参数可很大,但每 token 激活比例可较低
  • 结果是:模型“看起来很大”,单次计算不一定同等沉重

3) 稳定性与停机:真正的硬骨头

  • 循环结构天然有稳定性风险(状态漂移、训练爆炸)
  • loops 过多可能 overthinking,必须有动态停机或收敛判据
  • 能跑 demo 不等于能上线,关键在“何时停、为何停”

4) 能力偏置:更像“推理放大器”,不是“全能增强器”

  • 对组合推理、长链规划更友好
  • 对纯记忆检索类任务不必然同步受益
  • 所以它提升的是能力结构,不只是单一分数

把这四点拼起来,你看到的不是“神奇配方”,而是一张高风险路线图:
循环深度、稀疏路由、动态停机,每一项都能带来收益,也都带来新的系统风险。

我自己的判断是:Mythos 让人震撼的地方,未必是“想到了别人没想到的”,
而更可能是“把大家都知道但不敢上生产的技术组合,推进到了工业可用临界点”。


二、什么是RDT(也就是 Looped Transformer)

Recurrent-Depth Transformer(RDT)也叫 Looped Transformer。
核心思想很简单:不是无限加新层,而是让同一组层反复计算。

你可以粗暴地理解成:

  • 传统 Transformer:加深 = 招更多“新专家”
  • Looped Transformer:加深 = 让同一批“专家”多开几轮会

这条路的吸引力在于,把“参数深度”和“计算深度”拆开:
参数不必线性膨胀,推理深度可以按任务复杂度动态分配。

但任何训练过递归系统的工程师都知道,这种美感是有代价的:
循环越深,状态越难管;推理越长,停机策略越关键。
所以这不是免费午餐,而是“用更强工程纪律换更强计算弹性”。

关联阅读:
从堆参数到配计算:Looped Transformer 正在改写 AI 推理范式


三、OpenMythos怎么复现这条路线

OpenMythos 做的不是“宣布真相”,而是把假说变成实验装置。

1) 先给骨架:Prelude -> Recurrent Block -> Coda

  • Prelude 做初始编码
  • Recurrent Block 负责多轮迭代
  • Coda 负责收尾输出

这一步的价值不在“新奇”,而在于把循环深度做成了可以观测、可以对比、可以调参的对象。

2) 再把关键变量公开

  • 循环轮次(loop iterations)
  • 注意力变体实验位(如 MLA/GQA)
  • MoE 专家配置
  • 多参数规模变体

很多项目失败,不是因为想法错,而是变量藏得太深。
OpenMythos 至少做对了一件事:它让社区能复验,而不是只能围观。

3) 最后给训练入口,不停在推理演示

它不仅有推理端样例,还给了训练脚本和多卡路径。
这意味着它不是“架构草图”,而是在尝试成为一个可比较的研究基线。

一句话:它最重要的工程动作,是把“猜模型”变成“做实验”。


四、OpenMythos的意义

过去这类讨论很容易变成两种极端:
要么神化闭源模型,要么嘲笑开源复刻。
OpenMythos 的意义,恰恰在于跳出这两个极端。

1) 它把“神话”重新拉回可证伪轨道

面对闭源能力预告,最有价值的回应不是猜测,而是构建可运行、可质疑、可迭代的公共实验基线。
这本质上是在给 AI 研究重新装上“可证伪性引擎”。

2) 它沉淀的是稀缺工程硬通货

真正值钱的不是架构名词,而是训练稳定性、路由负载、停机策略这类工程手感。
这些东西写在代码里,才有传承价值。

3) 它抛出了一个更难的问题

当前沿能力越来越依赖“循环、稀疏、动态计算”这些复杂工程纪律,而非单纯参数规模时,
未来创新主导权到底更偏向算力巨头,还是更偏向能驾驭复杂系统的小而精团队?

这个问题,OpenMythos 没回答。
但它把问题问到了正确的位置。


结尾

别只盯着 OpenMythos 有没有复刻出 Mythos 的全部表现。
它更关键的价值是:把讨论重心从“它有多神奇”,转向“我们如何有纪律地构建复杂智能系统”。

如果未来半年,更多 RDT/MoE 论文开始把它当实验基线,
那它的历史位置就已经成立了。