100块就能复刻ChatGPT?OpenAI元老把价格打下来了

3 阅读4分钟

100块就能复刻ChatGPT?OpenAI元老把价格打下来了

家人们,谁懂啊😭

2019年OpenAI训练GPT-2花了4万3千美元,现在Andrej Karpathy(对,就是那个从OpenAI离职的大神)搞了个新项目,100刀不到就能让你拥有同款快乐,

这已经不是"把价格打下来"了,这是直接打骨折啊💀


先认识一下这位"价格屠夫"

https://github.com/karpathy/nanochat

  • 45.5k Star(这增长速度,GitHub服务器都快冒烟了)
  • 🐍 纯Python,没有花里胡哨的C++扩展
  • 👨‍💻 Andrej Karpathy亲自动手,前OpenAI创始成员、特斯拉AI总监

项目slogan简单粗暴:"The best ChatGPT that $100 can buy"

翻译成人话:100块能买到的最像ChatGPT的玩意儿🎯

karpathy/nanochat


这玩意儿到底能干啥?

小编给你捋一捋,nanochat覆盖了大模型全流程——

阶段说人话
Tokenization把"你好世界"切成模型能懂的碎片
Pretraining让模型疯狂读书,变成"懂王"
Finetuning专项训练,教它怎么好好说话
Evaluation考试打分,看看学废没
Inference实际聊天用起来
Chat UI给你整了个ChatGPT同款网页界面

最离谱的是,你只需要改一个参数 --depth(模型层数),其他所有超参数自动算好

Karpathy原话:"Everything just works"

这感觉就像——你去火锅店,服务员说"辣度选1到10,其他配菜锅底我全给你配齐",

社恐狂喜,选择困难症直接痊愈🙏


3小时速通GPT-2,还能打榜内卷

nanochat搞了个 "GPT-2速通排行榜",比谁训练得又快又好,

karpathy/nanochat

目前最快纪录:2.02小时,用NVIDIA的新数据集ClimbMix,

按H100服务器每小时3刀算,48刀就能拥有一个能聊天的GPT-2级别模型,

要是抢得到spot实例(云计算的"临期特价菜"),15刀搞定,

这价格,还不够你请同事喝两杯奶茶的🧋

更骚的是,你可以跑完训练后直接启动网页版:

python -m scripts.chat_web

然后打开浏览器,跟自己亲手养大的"AI幼儿园小朋友"聊天,

让它写首诗,问它天空为什么是蓝的,或者经典的**"strawberry里有几个r"**——

放心,它会错的,但那是你亲手养出来的错,别有一番风味😇


代码极简,黑客友好

Karpathy在README里疯狂叠甲:这不是框架,这是"强基线"

没有巨型配置对象,没有model factory,没有if-else怪兽,

整个代码库就一个目标——可读、可 hack、可 fork

karpathy/nanochat

文件结构清爽得像刚整理过的桌面:

  • gpt.py —— 核心Transformer,就这一个模型文件
  • engine.py —— 带KV Cache的高效推理
  • tokenizer.py —— 类GPT-4风格的BPE分词器
  • ui.html —— 前端界面,纯HTML/CSS/JS

甚至贴心地给了CPU/苹果M芯片的降级方案runs/runcpu.sh

虽然效果"不会很强"(原话),但至少能让你在MacBook上跑起来过把瘾,

真正的从云端到床头,全场景覆盖💻


谁该来玩玩这个?

人群能干嘛
AI研究者快速验证想法,5分钟跑完d12小模型实验
学生党花一顿饭钱,理解大模型全流程
创业者低成本测试垂直场景可行性
纯好奇宝宝体验"自己训出ChatGPT"的成就感

特别提一嘴,项目还附赠调教AI人格的指南——

想要你的nanochat变成毒舌吐槽机?还是温柔治愈系?

合成数据+SFT阶段混入, personality随心配🎨


小编锐评

nanochat最狠的不是便宜,是把AI民主化做到了极致

以前训练大模型是科技巨头的特权,现在100刀+3小时,个人开发者也能上桌吃饭,

Karpathy这是要把"AI平权"写进GitHub历史啊,

而且代码极简主义的设计哲学——一个--depth走天下——简直是给混乱的大模型开源界做了个好榜样,

别卷配置复杂度了,卷卷谁更优雅吧求求了🙏

热榜截图

目前nanochat稳居GitHub热榜,社区讨论区已经炸锅,Discord频道天天有人晒自己的训练成果,

想上车的朋友抓紧,说不定下个月"100刀ChatGPT"就变成"50刀ChatGPT"了——

毕竟排行榜上那帮人卷得飞起,2小时纪录估计很快就要被破了🏃‍♂️💨


项目地址https://github.com/karpathy/nanochat

快速开始:租个8卡H100,一行命令bash runs/speedrun.sh,然后去泡杯咖啡等3小时,