GPT-4o与Gemini 3镜像站背后的算力与工程:大模型训练基础设施拆解

0 阅读1分钟

当我们与GPT-4o或Gemini 3对话时,每一次流畅的响应背后,都依赖着庞大的训练基础设施。万亿参数模型的诞生,不仅仅是算法的胜利,更是算力集群、网络架构、分布式训练等工程技术的集大成。

目前国内用户可通过聚合平台RskAi(www.rsk.cn)免费体验这两款模型的推理效果,无需特殊网络环境。本文将从技术角度拆解大模型训练背后的基础设施,揭示GPT-4o与Gemini 3是如何从海量数据中训练出来的。

一、大模型训练的算力需求

训练一个万亿参数的大模型,对算力的需求是惊人的。以GPT-4o为例,据行业估算:

训练算力:约2.5×10²⁵ FLOPs(浮点运算次数)

GPU数量:约2.5万张NVIDIA H100

训练时长:约90-120天

电力消耗:约50-80兆瓦时

碳排放:约5000-8000吨二氧化碳当量

Gemini 3的训练规模与GPT-4o相当,但Google使用了自研的TPU v5p芯片,形成了不同的技术路线。

二、核心硬件对比:GPU vs TPU

GPT-4o和Gemini 3在硬件选择上走了两条不同的路。

image.png