上一次科技行业认真讨论"供应链瓶颈",还是 2000 年代的事。二十多年后,同样的剧本在 AI 领域重演了。
Tom Tunguz 这周发了一篇短文,数据很扎眼:Nvidia Blackwell 芯片的 GPU 租赁价格在两个月内从 4.08/小时,涨幅 48%。CoreWeave 涨价 20%,最低合约期从一年拉到三年。OpenAI 的 CFO Sarah Friar 公开说:"我们正在做一些非常艰难的取舍,有些方向不得不放弃,因为算力不够。"
连 OpenAI 都在喊缺算力,这事值得认真聊聊。
稀缺不是暂时的
很多人的第一反应是"等产能上来就好了"。但现实没这么乐观。
数据中心的建设周期是以年计的。从拿地、审批、建设到投产,快的也要 18 个月。而 AI 模型对算力的需求增长是指数级的 —— 每一代模型的训练成本都在翻倍。供给线性增长,需求指数增长,缺口只会越来越大。
Anthropic 已经把最新模型的访问限制在大约 40 个组织。前沿模型正在从"公开服务"变成"定向供给"。
对开发者意味着什么
Tom 总结了五个特征,我觉得说得很准:
关系型销售。最好的模型不再对所有人开放,供应商会优先服务最有利可图或最具战略价值的客户。这对独立开发者和小团队来说是个坏消息。
价高者得。即使模型开放,价格也可能高到离谱。资金充裕的公司天然占优。
有货但慢。即使你付得起钱,也不保证响应速度。延迟会成为新的竞争维度。
通胀型大宗商品。算力正在从"便宜到几乎免费"变成"需要精打细算的成本项"。软件公司需要把采购和利润率管理当成核心能力。
被迫多元化。开发者不得不转向更小的模型、本地部署、甚至混合方案,直到基础设施追上来。
小团队的生存策略
对于没有几十亿美金预算的团队,我觉得有几个方向值得思考:
第一,模型选择能力变得极其重要。不是每个任务都需要最强的模型。分类、摘要、简单推理用小模型就够了,把昂贵的算力留给真正需要的场景。像 OfoxAI(ofox.ai)这样的多模型聚合平台在这个背景下价值凸显 —— 一个入口灵活切换不同模型,按需选择性价比最优的方案。
第二,缓存和复用。相同或相似的请求不要重复调用模型。做好 prompt 缓存、结果缓存、embedding 缓存。
第三,本地推理能力。关注 Llama、Mistral 等开源模型的进展。在延迟敏感或成本敏感的场景,本地部署可能是唯一可行的选择。
这不是危言耸听
有人可能觉得这是短期波动。但看看数据中心的建设规划和能源供应的约束,这个稀缺期可能持续数年。
对于 AI 行业来说,"算力充裕"的黄金时代可能已经结束了。接下来的竞争,不只是谁的模型更强,还有谁能更高效地使用有限的算力。
这对整个行业未必是坏事。稀缺催生效率,效率催生创新。当你不能无限制地堆算力时,你被迫去思考更聪明的方案 —— 更好的架构、更高效的推理、更精准的模型选择。
真正的工程能力,从来都是在约束条件下体现的。