开源 2 周 5 万 Star！AI 大佬开源了一个自己做实验的工具。几个月前 Karpathy 发了一条推文。讲他花

几个月前 Karpathy 发了一条推文。

讲他花 1 小时 vibe coding 了一个心率实验追踪仪表盘——超级定制化的东西，就是为了追踪自己 8 周内把静息心率从 50 降到 45 的进度。

然后他说了一段特别有意思的话：

不应该需要一个专门的 App 来做这种事。这种东西大概就 300 行代码，LLM 几秒钟就能给你生成。当你需要什么功能的时候，去 App Store 找一个"差不多能用"的应用，这个概念感觉已经过时了。LLM Agent 可以即兴给你生成一个完全符合你需求的应用。

他的意思是，应用商店这种模式会过时。

未来的软件应该是高度定制化的：你需要什么，AI 就给你生成什么，用完即弃。

沿着这个思路往下想：如果普通软件可以这样，那更复杂的事情呢？

比如……科学研究？

Karpathy 开源了一个项目叫 autoresearch，把这个想法往前推了一大步。

01、autoresearch 是啥

一句话说清楚：它刚刚开源的 auto research 让 AI Agent 自己做 AI 研究。

具体来说，你给它一个真实的 LLM 训练环境，然后就可以去睡觉了。

AI 会自己改代码、训练 5 分钟、看效果有没有变好、决定保留还是丢弃，然后循环往复。

第二天早上醒来，你就能看到一堆实验日志，运气好的话还能收获一个更好的模型。

Karpathy 在项目 README 里写了一段特别有画面感的话：

曾几何时，前沿 AI 研究是由肉计算机完成的——它们需要吃饭、睡觉、偶尔娱乐一下，还得通过"组会"这个仪式里同步信息。那个时代早就过去了。现在研究完全是自主 AI 代理群的领域，它们在云端的计算集群巨构上运行。

这段话写得有点科幻小说的味道，但仔细想想，autoresearch 就是这个未来的雏形。

开源地址：github.com/karpathy/au…

02、这个项目是怎么设计的

Karpathy 的做法是这样的：把整个项目分成两部分：一部分是固定的基础设施，另一部分是 AI 可以改动的实验代码。

固定的部分包括：训练数据的准备、分词器、评估工具、还有一些常量，比如训练时间固定 5 分钟。

这些东西写好就不动了，让 AI 别乱改。

AI 能改的部分只有一个文件——train.py。

里面是完整的 GPT 模型，支持 Multi-Query Attention、Flash Attention 3，优化器用的是 Muon + AdamW 混合。

模型架构、超参数、batch size，AI 都可以自己调。

然后 Karpathy 写了一个 program.md，这是给 AI Agent 的研究指令。

你把 AI Agent 放进这个项目，让它读 program.md，它就知道该干什么了：改 train.py、跑训练、看结果、保留或回滚、继续下一轮。

整个流程完全是自动的。

人类不需要一行一行写实验代码，只需要写好研究策略，剩下的交给 AI。

03、Karpathy 亲自跑了一遍，效果怎么样

Karpathy 让 Agent 跑了一个通宵，大约 12 小时。

结果：110 次实验，val loss 从 0.862415 降到了 0.858039。

整个过程中，Agent 自己决定改什么、跑实验、看结果、决定保留还是丢弃。Karpathy 事后只需要看 results.tsv 和 progress.png，就能知道哪些改动有效。

有意思的是，有一次 Agent 把 val loss 降低了，但训练时间变长了，结果被系统自动拒绝。

规则是：要么更好的 loss，要么更快，要么两者兼得，不能牺牲一方。

Karpathy 后来在推特上说，过去两周花在设计与优化 Agent 工作流的时间，已经超过花在 nanochat 代码本身的时间。

他的原话大概是：你写好约束与目标函数，AI 就像一个不知疲倦的博士生，通宵搞实验，而你去睡觉。

他管这个叫后 AGI 感受。

04、这意味着什么

这个项目最打动我的，不是它现在能做出多牛逼的模型，而是它代表了一种范式转变。

以前做研究是人类的事情。

我们写代码、调参数、跑实验、看结果、写论文。AI 最多是个辅助工具，帮我们写写代码、查查资料。

但 autoresearch 提出了另一种可能：研究本身可以自动化。

人类要做的，不是一行一行写实验代码，而是设计好研究流程：写好 program.md，告诉 AI 你想往哪个方向探索。

这就像是，我们不再是直接做研究的科学家，而是变成了研究机构的管理者。

我们的工作是制定研究策略、设定目标、监控进度，真正执行研究的是 AI Agent。

Karpathy 的那段科幻描述其实不是在开玩笑。

如果这个方向继续发展下去，未来可能真的会有 AI 代理群在云端自主迭代代码，而人类只是在旁边观察和引导。

当然，现在这还只是个开始。

autoresearch 只是个 baseline，跑的是小模型，5 分钟的训练时间也做不了太复杂的实验。

但正如 Karpathy 在年度回顾里说的，LLM 同时比他预期的更聪明也更笨，而且行业可能连现在能力的 10% 都没发挥出来。

这个项目，可能就是那 10% 的一个入口。

05、怎么上手

如果你有一张 NVIDIA GPU，Karpathy 测试用的是 H100，可以试试：

安装 uv

curl -LsSf astral.sh/uv/install.… | sh

安装依赖

uv sync

准备数据

uv run prepare.py

先手动跑一次看看能不能跑通

uv run train.py

如果都没问题，就可以把 Claude 或者别的什么 AI Agent 放进来，让它看 program.md，然后开始自动研究。

需要注意的是，这个项目目前只支持 NVIDIA GPU。

Mac 用户可以看一下社区分支
miolini/autoresearch-macos，有适配版本。

毕竟，这可能就是未来做研究的样子。