过去一年,大家讨论 AI 编程,最常见的叙事还是同一种:模型更强了,补全更快了,Agent 更像实习生了。
但 Karpathy 新开的 autoresearch,其实把方向往前推了一步。
它不是在问“AI 能不能帮你写代码更快”,而是在问另一件事:AI 能不能自己改代码、自己跑实验、自己看结果、自己决定要不要保留这次尝试。
autoresearch最值得看的,不是某个训练技巧,而是它把“研究闭环”第一次做成了一个普通开发者也能看懂的最小原型。
截至 2026 年 3 月 18 日,这个仓库在 GitHub 上已经接近 4 万 Star(39,960)。
这不是“自动科研”的终局,而是方向样本
这个项目故意压得很小。
真正重要的只有三类文件:
prepare.pytrain.pyprogram.md
它不是一台神秘科研机器。
它更像一个极度简化过的研究实验室:人类写研究规则,Agent 在规则里持续试错。
真正值得看的,是那条 5 分钟研究闭环
这个 repo 最关键的设计是:
- Agent 改
train.py - 每次只跑 5 分钟
- 看统一指标
val_bpb - 记录结果
- 好就保留,差就回滚
这看起来朴素,但非常重要。
因为研究第一次被压成了一条可以持续自动执行的反馈回路。
为什么 program.md 比想象中更重要
表面上,Agent 在改的是训练代码。
但更高一层看,真正定义研究组织方式的是 program.md。
也就是说,未来更稀缺的能力,可能不是“手工改代码”,而是“把目标、边界、指标和回滚规则设计给 Agent”。
这不是 prompt 工程的升级版,而是 loop design。
为什么这个项目会被很多人认真看
一方面,它出自 Karpathy:Eureka Labs 创始人,前 Tesla AI Director,前 OpenAI founding member。
另一方面,它把 Agent 工作流从“帮你写一段代码”,推进到了“替你执行整条实验闭环”。
这才是更大的变化。
但不要神化它
从仓库本身看,它的边界也很清楚:
- 单 GPU
- 主要面向 H100 这类环境
- 小型 playground
- 不是完整科研平台
所以它的价值,不是“现在就替代研究员”,而是把未来研究组织可能怎么被软件化,先公开展示出来。
最后
如果要把整篇压成一句话,我会这样说:
autoresearch 真正证明的,不是 AI 已经能替代研究员,而是研究本身已经开始被拆成 Agent 可以执行的反馈回路。