开源 2 周 5 万 Star!AI 大佬开源了一个自己做实验的工具。

0 阅读5分钟

几个月前 Karpathy 发了一条推文。

讲他花 1 小时 vibe coding 了一个心率实验追踪仪表盘——超级定制化的东西,就是为了追踪自己 8 周内把静息心率从 50 降到 45 的进度。

然后他说了一段特别有意思的话:

不应该需要一个专门的 App 来做这种事。这种东西大概就 300 行代码,LLM 几秒钟就能给你生成。当你需要什么功能的时候,去 App Store 找一个"差不多能用"的应用,这个概念感觉已经过时了。LLM Agent 可以即兴给你生成一个完全符合你需求的应用。

他的意思是,应用商店这种模式会过时

未来的软件应该是高度定制化的:你需要什么,AI 就给你生成什么,用完即弃。

沿着这个思路往下想:如果普通软件可以这样,那更复杂的事情呢?

比如……科学研究?

Karpathy 开源了一个项目叫 autoresearch,把这个想法往前推了一大步。

01、autoresearch 是啥

一句话说清楚:它刚刚开源的 auto research 让 AI Agent 自己做 AI 研究

具体来说,你给它一个真实的 LLM 训练环境,然后就可以去睡觉了。

AI 会自己改代码、训练 5 分钟、看效果有没有变好、决定保留还是丢弃,然后循环往复。

第二天早上醒来,你就能看到一堆实验日志,运气好的话还能收获一个更好的模型。

Karpathy 在项目 README 里写了一段特别有画面感的话:

曾几何时,前沿 AI 研究是由肉计算机完成的——它们需要吃饭、睡觉、偶尔娱乐一下,还得通过"组会"这个仪式里同步信息。那个时代早就过去了。现在研究完全是自主 AI 代理群的领域,它们在云端的计算集群巨构上运行。

这段话写得有点科幻小说的味道,但仔细想想,autoresearch 就是这个未来的雏形。

开源地址:github.com/karpathy/au…

02、这个项目是怎么设计的

Karpathy 的做法是这样的:把整个项目分成两部分:一部分是固定的基础设施,另一部分是 AI 可以改动的实验代码

固定的部分包括:训练数据的准备、分词器、评估工具、还有一些常量,比如训练时间固定 5 分钟。

这些东西写好就不动了,让 AI 别乱改。

AI 能改的部分只有一个文件——train.py。

里面是完整的 GPT 模型,支持 Multi-Query Attention、Flash Attention 3,优化器用的是 Muon + AdamW 混合。

模型架构、超参数、batch size,AI 都可以自己调。

然后 Karpathy 写了一个 program.md,这是给 AI Agent 的研究指令

你把 AI Agent 放进这个项目,让它读 program.md,它就知道该干什么了:改 train.py、跑训练、看结果、保留或回滚、继续下一轮。

整个流程完全是自动的。

人类不需要一行一行写实验代码,只需要写好研究策略,剩下的交给 AI。

03、Karpathy 亲自跑了一遍,效果怎么样

Karpathy 让 Agent 跑了一个通宵,大约 12 小时

结果:110 次实验,val loss 从 0.862415 降到了 0.858039

整个过程中,Agent 自己决定改什么、跑实验、看结果、决定保留还是丢弃。Karpathy 事后只需要看 results.tsv 和 progress.png,就能知道哪些改动有效。

有意思的是,有一次 Agent 把 val loss 降低了,但训练时间变长了,结果被系统自动拒绝

规则是:要么更好的 loss,要么更快,要么两者兼得,不能牺牲一方。

Karpathy 后来在推特上说,过去两周花在设计与优化 Agent 工作流的时间,已经超过花在 nanochat 代码本身的时间。

他的原话大概是:你写好约束与目标函数,AI 就像一个不知疲倦的博士生,通宵搞实验,而你去睡觉

他管这个叫后 AGI 感受

04、这意味着什么

这个项目最打动我的,不是它现在能做出多牛逼的模型,而是它代表了一种范式转变

以前做研究是人类的事情。

我们写代码、调参数、跑实验、看结果、写论文。AI 最多是个辅助工具,帮我们写写代码、查查资料。

但 autoresearch 提出了另一种可能:研究本身可以自动化

人类要做的,不是一行一行写实验代码,而是设计好研究流程:写好 program.md,告诉 AI 你想往哪个方向探索。

这就像是,我们不再是直接做研究的科学家,而是变成了研究机构的管理者

我们的工作是制定研究策略、设定目标、监控进度,真正执行研究的是 AI Agent。

Karpathy 的那段科幻描述其实不是在开玩笑。

如果这个方向继续发展下去,未来可能真的会有 AI 代理群在云端自主迭代代码,而人类只是在旁边观察和引导。

当然,现在这还只是个开始。

autoresearch 只是个 baseline,跑的是小模型,5 分钟的训练时间也做不了太复杂的实验。

但正如 Karpathy 在年度回顾里说的,LLM 同时比他预期的更聪明也更笨,而且行业可能连现在能力的 10% 都没发挥出来

这个项目,可能就是那 10% 的一个入口。

05、怎么上手

如果你有一张 NVIDIA GPU,Karpathy 测试用的是 H100,可以试试:

安装 uv

curl -LsSf astral.sh/uv/install.… | sh

安装依赖

uv sync

准备数据

uv run prepare.py

先手动跑一次看看能不能跑通

uv run train.py

如果都没问题,就可以把 Claude 或者别的什么 AI Agent 放进来,让它看 program.md,然后开始自动研究。

需要注意的是,这个项目目前只支持 NVIDIA GPU。

Mac 用户可以看一下社区分支 
miolini/autoresearch-macos,有适配版本。

毕竟,这可能就是未来做研究的样子。