100块就能复刻ChatGPT?OpenAI元老把价格打下来了
家人们,谁懂啊😭
2019年OpenAI训练GPT-2花了4万3千美元,现在Andrej Karpathy(对,就是那个从OpenAI离职的大神)搞了个新项目,100刀不到就能让你拥有同款快乐,
这已经不是"把价格打下来"了,这是直接打骨折啊💀
先认识一下这位"价格屠夫"
https://github.com/karpathy/nanochat
- ⭐ 45.5k Star(这增长速度,GitHub服务器都快冒烟了)
- 🐍 纯Python,没有花里胡哨的C++扩展
- 👨💻 Andrej Karpathy亲自动手,前OpenAI创始成员、特斯拉AI总监
项目slogan简单粗暴:"The best ChatGPT that $100 can buy"
翻译成人话:100块能买到的最像ChatGPT的玩意儿🎯

这玩意儿到底能干啥?
小编给你捋一捋,nanochat覆盖了大模型全流程——
| 阶段 | 说人话 |
|---|---|
| Tokenization | 把"你好世界"切成模型能懂的碎片 |
| Pretraining | 让模型疯狂读书,变成"懂王" |
| Finetuning | 专项训练,教它怎么好好说话 |
| Evaluation | 考试打分,看看学废没 |
| Inference | 实际聊天用起来 |
| Chat UI | 给你整了个ChatGPT同款网页界面 |
最离谱的是,你只需要改一个参数 --depth(模型层数),其他所有超参数自动算好,
Karpathy原话:"Everything just works",
这感觉就像——你去火锅店,服务员说"辣度选1到10,其他配菜锅底我全给你配齐",
社恐狂喜,选择困难症直接痊愈🙏
3小时速通GPT-2,还能打榜内卷
nanochat搞了个 "GPT-2速通排行榜",比谁训练得又快又好,

目前最快纪录:2.02小时,用NVIDIA的新数据集ClimbMix,
按H100服务器每小时3刀算,48刀就能拥有一个能聊天的GPT-2级别模型,
要是抢得到spot实例(云计算的"临期特价菜"),15刀搞定,
这价格,还不够你请同事喝两杯奶茶的🧋
更骚的是,你可以跑完训练后直接启动网页版:
python -m scripts.chat_web
然后打开浏览器,跟自己亲手养大的"AI幼儿园小朋友"聊天,
让它写首诗,问它天空为什么是蓝的,或者经典的**"strawberry里有几个r"**——
放心,它会错的,但那是你亲手养出来的错,别有一番风味😇
代码极简,黑客友好
Karpathy在README里疯狂叠甲:这不是框架,这是"强基线",
没有巨型配置对象,没有model factory,没有if-else怪兽,
整个代码库就一个目标——可读、可 hack、可 fork,

文件结构清爽得像刚整理过的桌面:
gpt.py—— 核心Transformer,就这一个模型文件engine.py—— 带KV Cache的高效推理tokenizer.py—— 类GPT-4风格的BPE分词器ui.html—— 前端界面,纯HTML/CSS/JS
甚至贴心地给了CPU/苹果M芯片的降级方案runs/runcpu.sh,
虽然效果"不会很强"(原话),但至少能让你在MacBook上跑起来过把瘾,
真正的从云端到床头,全场景覆盖💻
谁该来玩玩这个?
| 人群 | 能干嘛 |
|---|---|
| AI研究者 | 快速验证想法,5分钟跑完d12小模型实验 |
| 学生党 | 花一顿饭钱,理解大模型全流程 |
| 创业者 | 低成本测试垂直场景可行性 |
| 纯好奇宝宝 | 体验"自己训出ChatGPT"的成就感 |
特别提一嘴,项目还附赠调教AI人格的指南——
想要你的nanochat变成毒舌吐槽机?还是温柔治愈系?
合成数据+SFT阶段混入, personality随心配🎨
小编锐评
nanochat最狠的不是便宜,是把AI民主化做到了极致,
以前训练大模型是科技巨头的特权,现在100刀+3小时,个人开发者也能上桌吃饭,
Karpathy这是要把"AI平权"写进GitHub历史啊,
而且代码极简主义的设计哲学——一个--depth走天下——简直是给混乱的大模型开源界做了个好榜样,
别卷配置复杂度了,卷卷谁更优雅吧求求了🙏

目前nanochat稳居GitHub热榜,社区讨论区已经炸锅,Discord频道天天有人晒自己的训练成果,
想上车的朋友抓紧,说不定下个月"100刀ChatGPT"就变成"50刀ChatGPT"了——
毕竟排行榜上那帮人卷得飞起,2小时纪录估计很快就要被破了🏃♂️💨
项目地址:https://github.com/karpathy/nanochat
快速开始:租个8卡H100,一行命令bash runs/speedrun.sh,然后去泡杯咖啡等3小时,