当 Claude Mythos 用“发现成千上万零日漏洞”的新闻刷屏时,行业很容易掉进一种熟悉的情绪:
一边惊叹黑箱系统的能力,一边反复追问“它到底怎么做到的”,最后停在猜测。
这次有点不一样。
22 岁开发者 Kye Gomez 用 OpenMythos 给了一个更硬核的回应:既然核心架构没公开,那就基于公开论文和工程常识,把“神话叙事”重写成可运行假说。
这不是“像不像官方”的八卦游戏,而更像一次工程版的理论物理实验:
先提出结构假说,再给实验装置,再把可证伪点摆到台面上。
一、Mythos可能是什么(参考 OpenMythos 的 Summary)
先把边界说清:这里不是官方定稿,只是高不确定、可验证的架构画像。
但这张画像至少把讨论从“玄学强大”拉回“工程变量”。
1) 架构主干:RDT/Looped Transformer
- Prelude -> Looped Recurrent Block -> Coda
- 在 latent 空间多轮迭代,不逐步输出中间 token
- 通过增加 loops 获取更深推理,收益可能边际递减
2) 参数与计算拆分:MoE 让“大”和“重”不再等号
- FFN 可能叠加细粒度 MoE + 共享专家
- 总参数可很大,但每 token 激活比例可较低
- 结果是:模型“看起来很大”,单次计算不一定同等沉重
3) 稳定性与停机:真正的硬骨头
- 循环结构天然有稳定性风险(状态漂移、训练爆炸)
- loops 过多可能 overthinking,必须有动态停机或收敛判据
- 能跑 demo 不等于能上线,关键在“何时停、为何停”
4) 能力偏置:更像“推理放大器”,不是“全能增强器”
- 对组合推理、长链规划更友好
- 对纯记忆检索类任务不必然同步受益
- 所以它提升的是能力结构,不只是单一分数
把这四点拼起来,你看到的不是“神奇配方”,而是一张高风险路线图:
循环深度、稀疏路由、动态停机,每一项都能带来收益,也都带来新的系统风险。
我自己的判断是:Mythos 让人震撼的地方,未必是“想到了别人没想到的”,
而更可能是“把大家都知道但不敢上生产的技术组合,推进到了工业可用临界点”。
二、什么是RDT(也就是 Looped Transformer)
Recurrent-Depth Transformer(RDT)也叫 Looped Transformer。
核心思想很简单:不是无限加新层,而是让同一组层反复计算。
你可以粗暴地理解成:
- 传统 Transformer:加深 = 招更多“新专家”
- Looped Transformer:加深 = 让同一批“专家”多开几轮会
这条路的吸引力在于,把“参数深度”和“计算深度”拆开:
参数不必线性膨胀,推理深度可以按任务复杂度动态分配。
但任何训练过递归系统的工程师都知道,这种美感是有代价的:
循环越深,状态越难管;推理越长,停机策略越关键。
所以这不是免费午餐,而是“用更强工程纪律换更强计算弹性”。
关联阅读:
《从堆参数到配计算:Looped Transformer 正在改写 AI 推理范式》
三、OpenMythos怎么复现这条路线
OpenMythos 做的不是“宣布真相”,而是把假说变成实验装置。
1) 先给骨架:Prelude -> Recurrent Block -> Coda
- Prelude 做初始编码
- Recurrent Block 负责多轮迭代
- Coda 负责收尾输出
这一步的价值不在“新奇”,而在于把循环深度做成了可以观测、可以对比、可以调参的对象。
2) 再把关键变量公开
- 循环轮次(loop iterations)
- 注意力变体实验位(如 MLA/GQA)
- MoE 专家配置
- 多参数规模变体
很多项目失败,不是因为想法错,而是变量藏得太深。
OpenMythos 至少做对了一件事:它让社区能复验,而不是只能围观。
3) 最后给训练入口,不停在推理演示
它不仅有推理端样例,还给了训练脚本和多卡路径。
这意味着它不是“架构草图”,而是在尝试成为一个可比较的研究基线。
一句话:它最重要的工程动作,是把“猜模型”变成“做实验”。
四、OpenMythos的意义
过去这类讨论很容易变成两种极端:
要么神化闭源模型,要么嘲笑开源复刻。
OpenMythos 的意义,恰恰在于跳出这两个极端。
1) 它把“神话”重新拉回可证伪轨道
面对闭源能力预告,最有价值的回应不是猜测,而是构建可运行、可质疑、可迭代的公共实验基线。
这本质上是在给 AI 研究重新装上“可证伪性引擎”。
2) 它沉淀的是稀缺工程硬通货
真正值钱的不是架构名词,而是训练稳定性、路由负载、停机策略这类工程手感。
这些东西写在代码里,才有传承价值。
3) 它抛出了一个更难的问题
当前沿能力越来越依赖“循环、稀疏、动态计算”这些复杂工程纪律,而非单纯参数规模时,
未来创新主导权到底更偏向算力巨头,还是更偏向能驾驭复杂系统的小而精团队?
这个问题,OpenMythos 没回答。
但它把问题问到了正确的位置。
结尾
别只盯着 OpenMythos 有没有复刻出 Mythos 的全部表现。
它更关键的价值是:把讨论重心从“它有多神奇”,转向“我们如何有纪律地构建复杂智能系统”。
如果未来半年,更多 RDT/MoE 论文开始把它当实验基线,
那它的历史位置就已经成立了。