AI 开始自己跑实验了:比 AI 写代码还要颠覆的事

17 阅读2分钟

过去一年,大家讨论 AI 编程,最常见的叙事还是同一种:模型更强了,补全更快了,Agent 更像实习生了。

但 Karpathy 新开的 autoresearch,其实把方向往前推了一步。

它不是在问“AI 能不能帮你写代码更快”,而是在问另一件事:AI 能不能自己改代码、自己跑实验、自己看结果、自己决定要不要保留这次尝试。

autoresearch 最值得看的,不是某个训练技巧,而是它把“研究闭环”第一次做成了一个普通开发者也能看懂的最小原型。

截至 2026 年 3 月 18 日,这个仓库在 GitHub 上已经接近 4 万 Star(39,960)

封面图.jpeg

这不是“自动科研”的终局,而是方向样本

这个项目故意压得很小。

真正重要的只有三类文件:

  • prepare.py
  • train.py
  • program.md

它不是一台神秘科研机器。

它更像一个极度简化过的研究实验室:人类写研究规则,Agent 在规则里持续试错。

真正值得看的,是那条 5 分钟研究闭环

这个 repo 最关键的设计是:

  1. Agent 改 train.py
  2. 每次只跑 5 分钟
  3. 看统一指标 val_bpb
  4. 记录结果
  5. 好就保留,差就回滚

这看起来朴素,但非常重要。

因为研究第一次被压成了一条可以持续自动执行的反馈回路。

配图2.jpeg

为什么 program.md 比想象中更重要

表面上,Agent 在改的是训练代码。

但更高一层看,真正定义研究组织方式的是 program.md

也就是说,未来更稀缺的能力,可能不是“手工改代码”,而是“把目标、边界、指标和回滚规则设计给 Agent”。

这不是 prompt 工程的升级版,而是 loop design。

配图3.jpeg

为什么这个项目会被很多人认真看

一方面,它出自 Karpathy:Eureka Labs 创始人,前 Tesla AI Director,前 OpenAI founding member。

另一方面,它把 Agent 工作流从“帮你写一段代码”,推进到了“替你执行整条实验闭环”。

这才是更大的变化。

但不要神化它

从仓库本身看,它的边界也很清楚:

  • 单 GPU
  • 主要面向 H100 这类环境
  • 小型 playground
  • 不是完整科研平台

所以它的价值,不是“现在就替代研究员”,而是把未来研究组织可能怎么被软件化,先公开展示出来。

最后

如果要把整篇压成一句话,我会这样说:

autoresearch 真正证明的,不是 AI 已经能替代研究员,而是研究本身已经开始被拆成 Agent 可以执行的反馈回路。