当我们与GPT-4o或Gemini 3对话时,每一次流畅的响应背后,都依赖着庞大的训练基础设施。万亿参数模型的诞生,不仅仅是算法的胜利,更是算力集群、网络架构、分布式训练等工程技术的集大成。
目前国内用户可通过聚合平台RskAi(www.rsk.cn)免费体验这两款模型的推理效果,无需特殊网络环境。本文将从技术角度拆解大模型训练背后的基础设施,揭示GPT-4o与Gemini 3是如何从海量数据中训练出来的。
一、大模型训练的算力需求
训练一个万亿参数的大模型,对算力的需求是惊人的。以GPT-4o为例,据行业估算:
训练算力:约2.5×10²⁵ FLOPs(浮点运算次数)
GPU数量:约2.5万张NVIDIA H100
训练时长:约90-120天
电力消耗:约50-80兆瓦时
碳排放:约5000-8000吨二氧化碳当量
Gemini 3的训练规模与GPT-4o相当,但Google使用了自研的TPU v5p芯片,形成了不同的技术路线。
二、核心硬件对比:GPU vs TPU
GPT-4o和Gemini 3在硬件选择上走了两条不同的路。