2018年,一个只有1.17亿参数的模型悄然诞生。八年后,同一技术路线孕育出了能够原生操控电脑、在桌面任务中超越人类平均水平的“智能体”。本文以GPT系列为主线,逐代拆解架构细节、训练方法、能力跃升与争议反思,并纵览全球主流LLM体系,解读2026年AI行业正在发生的范式转移:从“模型能力竞赛”转向“系统级智能落地”。
一、一张表看懂GPT系列技术演进
模型 | 发布时间 | 参数量 | 层数 | 隐藏维度 | 注意力头数 | 上下文窗口 | 核心突破 | 能力定位 |
GPT-1 | 2018年6月 | 1.17亿 | 12 | 768 | 12 | 512 tokens | 验证Decoder-only + 预训练-微调范式 | 学术探索 |
GPT-2 | 2019年 | 15.42亿 | 48 | 1600 | 25 | 1024 tokens | 零样本泛化、规模效应、Pre-LayerNorm | 通用生成 |
GPT-3 | 2020年5月 | 1750亿 | 96 | 12288 | 96 | 2048 tokens | 上下文学习、百倍扩展、交替稀疏注意力 | 基础大模型 |
GPT-4 | 2023年3月 | ~1.8万亿 | ~120 | — | — | 32k→128k tokens | MoE架构、多模态、强推理 | 应用落地 |
GPT-4.5 | 2025年2月 | 万亿级 | — | — | — | 256k tokens | 情商优先、无监督扩展、非思维链模型 | 情感交互 |
GPT-5 | 2025年8月 | 未公开 | — | — | — | 400k tokens | 统一路由、专家级推理、多模态融合 | 博士级智能 |
GPT-5.4 | 2026年3月 | 未公开 | — | — | — | 1M tokens | 原生电脑操控、超人类成功率 | 专业执行 |
(说明:GPT-4及之后版本的参数量基于公开报道估算;GPT-4之后官方不再公布层数、隐藏维度等细粒度参数。)
下面逐一拆解每个版本的技术细节。
二、GPT-1到GPT-3:从范式验证到规模突破
2.1 GPT-1(2018):一次“架构简化”的成功
GPT-1是OpenAI于2018年6月发布的首个生成式预训练语言模型,论文《Improving Language Understanding by Generative Pre-Training》。它的核心贡献不在于性能有多强(仅1.17亿参数),而在于首次系统化验证了“预训练+微调”的训练范式,为大语言模型时代奠定了方法论基础。
架构选择:Decoder-only的范式创新
2017年Google提出的原始Transformer是Encoder-Decoder架构——编码器负责理解输入,解码器负责生成输出。GPT-1做了一个大胆的简化:只保留Decoder部分。原因是OpenAI的目标是“生成式”预训练——通过预测下一个词来学习语言规律,而Decoder的自回归特性天然适合这个任务。
整个模型分为三层:
-
输入层
:将文本序列映射为词向量,并加入可学习的位置嵌入(Learnable Position Embedding),取代原始Transformer的正弦编码,让模型在训练中自适应地学习词序关系。
-
Transformer Block
:堆叠12层,每个Block包含掩码多头自注意力(Masked Multi-Head Self-Attention)和前馈网络(Feed Forward Network),配合LayerNorm与残差连接。掩码机制确保在预测当前位置时看不到未来词,这是自回归生成的根本要求。
-
输出层
:预训练阶段输出下一个词的概率分布(Text Prediction),微调阶段替换为任务分类器(Task Classifier)。
此外,GPT-1采用权重共享机制:输入嵌入层与输出词表权重共享,减少参数量并提升训练稳定性。
参数项 | 数值 |
模型层数 | 12 |
隐藏维度 | 768 |
注意力头数 | 12 |
前馈层维度 | 3072 |
参数总量 | 1.17亿 |
训练:两阶段范式
-
预训练
:使用BooksCorpus数据集(约7000本未出版小说,8亿词)。选择书籍是因为长篇连续文本能帮助模型捕捉句法结构、词汇共现和语义依赖。训练目标是自回归语言建模——给定前文预测下一个词(Next Token Prediction)。
-
微调
:在模型顶部加入轻量的任务分类层,在少量标注数据上进行监督训练。OpenAI还设计了一个联合训练策略:主目标是下游任务的分类损失,同时叠加辅助的语言建模损失,以保持预训练学到的通用知识。
能力与局限:GPT-1在文本蕴含、问答、语义相似度等任务上显著优于从零训练的监督模型,并能生成语法合理的短文本。但仅在10个NLP任务上验证,理解类任务弱于双向注意力的BERT,通用能力有限。
历史意义:不在于性能,而在于范式——它第一次证明“Decoder-only + 预训练-微调”这条路走得通。
2.2 GPT-2(2019):规模效应初显
GPT-2发布于2019年,论文《Language Models are Unsupervised Multitask Learners》,标题直接点明野心:语言模型本身就是多任务学习者,无需针对每个任务单独微调。
架构创新
-
规模扩展
:最大版本参数量15.42亿,是GPT-1的约13倍。层数从12增至48,隐藏维度从768扩至1600,注意力头数从12增至25,前馈层维度从3072扩至6400。GPT-2提供多个版本(124M、355M、774M、1558M),上下文窗口从512提升到1024,batchsize增至512。
-
Pre-LayerNorm
:将LayerNorm从子模块之后移到之前。GPT-1采用Post-LayerNorm(先注意力/前馈,再归一化和残差),GPT-2改为Pre-LayerNorm——在每个子模块之前做归一化,并在最后一个Self-Attention后再加一层LayerNorm。这个改动显著缓解了深层模型中的梯度不稳定问题,让训练更加顺滑。
训练数据:使用自建的WebText数据集(约40GB,800万篇网页内容),来源是Reddit上获至少3个赞的高质量链接,涵盖新闻、博客、论坛、技术文档等。训练token数从GPT-1的8亿跃升至400亿,提升50倍。
核心能力:零样本泛化
GPT-2首次展示零样本学习能力:无需任何微调,仅通过自然语言提示就能完成翻译、问答、摘要等任务。例如输入“Translate English to French: Hello world →”,模型直接生成“Bonjour le monde”。这说明模型从海量文本中自发学会了不同语言间的映射关系以及“翻译”这个任务的结构。
在生成能力上,GPT-2能生成语法正确、语义连贯、上下文一致的长文本,在8个公开评测任务中7个取得当时最优。但零样本能力在复杂推理和结构化任务上仍不稳定,与监督微调模型有差距。
2.3 GPT-3(2020):1750亿参数的“奇迹”
GPT-3发布于2020年5月,论文《Language Models are Few-Shot Learners》。1750亿参数,相比GPT-2最大版本提升约117倍。
架构优化:交替注意力模式
GPT-3在注意力机制上做了重要工程优化:在各Transformer Block中交替使用稠密注意力和局部带状稀疏注意力。标准自注意力复杂度O(n²),当序列长度2048时注意力矩阵约400万元素。稀疏注意力限制每个token只与附近窗口内的token交互,复杂度降至O(n log n)。通过稠密与稀疏交替,GPT-3在保持全局感知的同时大幅降低计算开销。
训练规模
-
层数96,隐藏维度12288,96个注意力头
-
参数量1750亿,需约700GB存储
-
训练数据约570GB,含约3000亿token,覆盖新闻、百科、文学、学术
-
数据来源:CommonCrawl、WebText2、Books1、Books2、Wikipedia的混合
-
算力成本:约1200万美元,在数千块NVIDIA V100 GPU上耗时数周
核心创新:上下文学习
GPT-3提出上下文学习(In-Context Learning):模型使用阶段无需任何参数更新,仅靠输入中的任务描述和少量示例就能理解并完成任务(Few-Shot)。例如在Prompt中写“Translate English to French: sea otter => loutre de mer; peppermint => menthe poivrée; cheese =>”,模型自动完成翻译——它学会的是模式匹配和类比推理,而非专门训练。
GPT-3能生成语法正确、语义连贯、风格自然的长文本,在问答、摘要、翻译、编程等任务上表现接近甚至超过部分微调过的专用模型。
历史地位:让整个行业意识到“规模本身就是一种能力”。1750亿参数带来质变,语言模型首次展现出“通用智能”的雏形。
三、从GPT-3到ChatGPT:对齐训练的突破
3.1 GPT-3的问题:懂语言规律,但不理解人类意图
GPT-3的训练目标只是预测下一个词,学到的是语言统计规律,而不是“如何理解和执行人类指令”。导致生成内容常与用户需求偏差——可能答非所问、包含不真实或有害信息。根本原因:模型尚未与人类意图对齐(Alignment)。
3.2 InstructGPT(2022):让模型学会“听话”
InstructGPT发布于2022年初,论文《Training language models to follow instructions with human feedback》。它是GPT-3的改进版,也是ChatGPT的技术前身。
架构:延续GPT-3的Decoder-only架构和1750亿参数(96层,12288隐藏维度,96头)。创新不在网络结构,而在训练范式。
三阶段对齐训练
第一阶段:监督微调(SFT)。收集人工标注的高质量“指令-回答”对,覆盖常见指令及理想响应。模型在这些数据上微调(仍为Next Token Prediction),初步学会理解并执行自然语言指令。
第二阶段:奖励模型(RM)。用SFT模型对同一指令生成多个候选回答,人工标注者根据质量、相关性、礼貌性、有用性、安全性等维度排序。利用排序结果训练一个奖励模型,使其能为任意回答输出偏好评分——本质是一个“人类偏好模拟器”。
第三阶段:强化学习(RLHF)。以奖励模型为评分工具,使用PPO(近端策略优化)算法优化语言模型。流程:给指令→模型生成回答→奖励模型打分→模型朝“高分方向”更新参数。PPO通过裁剪策略限制更新幅度,避免训练崩溃。
实验结果:人类评估中,InstructGPT(1.3B参数)的回答受欢迎程度超过原始GPT-3(175B参数)。这说明“高质量对齐”的价值可以超越“粗暴的参数规模”。
3.3 ChatGPT(2022):对话版的InstructGPT
ChatGPT发布于2022年11月,是InstructGPT在对话场景下的特化版本。
训练数据区别:使用标注人员模拟用户与AI助手的对话数据,具有多轮对话结构,强调上下文保持与连续问答能力。原有InstructGPT的“指令-单轮回答”数据也被转换为对话格式混合使用。
核心能力:
-
连贯对话:理解上下文并进行多轮交互
-
错误应对:可承认自身错误并尝试修正
-
逻辑判断:能识别并质疑用户问题中的错误前提
-
安全防护:对不当请求具备拒绝能力
ChatGPT引爆了全球AI热潮,成为大语言模型从“学术研究”走向“全民应用”的里程碑。
3.4 “三阶段”范式总结
GPT系列发展凝结出业界主流的训练框架:
-
预训练
:在大规模无标注语料上自监督学习,获得通用语言能力、世界知识和基本推理。
-
监督微调(SFT)
:用高质量“指令-回答”数据训练,使其理解并遵循指令。
-
对齐
:引入人类偏好、行为规范、安全约束,使模型行为符合期望。方法包括RLHF(奖励模型+PPO)以及DPO、ORPO、KTO等无需强化学习的偏好优化方法。
四、GPT-4到GPT-4.5:从“智商”到“情商”
4.1 GPT-4(2023):多模态与MoE架构
GPT-4发布于2023年3月,是第一个真正的多模态GPT模型,能处理文本和图像输入。
MoE架构(据SemiAnalysis泄露):
-
总参数量约1.8万亿(120层),是GPT-3的10倍以上
-
采用混合专家模型(Mixture of Experts),拥有16个专家,每个MLP专家约1110亿参数
-
每次前向传播仅激活2个专家,加上注意力共享参数,每次推理只需约2800亿参数和560TFLOPs计算量,显著降低推理成本
-
训练成本约6300万美元,使用13万亿token数据
上下文窗口:GPT-4为32k tokens,GPT-4 Turbo扩展到128k tokens(可一次处理约300页书籍)。
能力突破:多模态输入(文本+图像)、强推理能力(Sam Altman:“GPT-3像高中生,GPT-4像大学生”)。
4.2 GPT-4.5(2025年2月):被误读的“最强情商模型”
2025年2月27日发布,引发争议——有人说是“史上最大但智商一般”。其实它被误读了。
训练方法:融合两种扩展——扩展无监督学习(增强对世界的理解,提高模式识别和创造性见解)和扩展思维链推理(解决复杂STEM问题)。使用新的监督技术,结合SFT和RLHF。
核心定位:OpenAI最后一款非思维链模型,不靠深度推理,而靠直觉和知识储备快速响应。核心竞争力是“情商”——识别用户情感、先共情后回答、自然温暖的多轮对话。奥特曼评价:“这是第一个让我感觉像是在和一个有思想的人交谈的模型。”
能力表现:
-
SimpleQA准确率62.5%,幻觉率37.1%,远优于GPT-4o(幻觉率52%)
-
在病毒性肝炎问答测评中,89.1%回答被评为“良好”,超越Claude-3.5-sonnet(71.15%)和GPT-4(50.64%)
-
但在SWE-Bench编码基准仅28.0%,科学和数学基准不及o3-mini
高昂成本:API每百万输出token 150美元,输入75美元,是GPT-4o的数十倍。奥特曼坦承GPU短缺,先推给Pro用户(200美元/月)。
意义:验证了“无监督学习+情感智能”的技术可行性,为推理模型的深化应用奠定基础。它证明了“大模型可以不仅有智商,还有情商”。
五、GPT-5系列:博士级智能与原生电脑操控
5.1 GPT-5(2025年8月):统一架构与博士级智能
2025年8月7日发布,奥特曼称“第一次真正感觉像在和一个博士级专家对话”。
统一智能集成系统:将快速处理、高级推理和多模态输入整合到单一模型,通过实时路由器动态分配任务。简单查询走低延迟路径,复杂推理自动切换到深度推理路径。
版本与上下文:
-
GPT-5 Main:272k输入/128k输出,总处理40万tokens
-
GPT-5 Mini:面向实时互动,轻量但具备推理力
-
GPT-5 Nano:更轻量级
-
GPT-5 Thinking系列(mini、nano、pro):负责长链条推理,同样40万token上限
工具集成优化:通过verbosity和reasoning_effort参数控制模型行为;不再强制要求JSON格式函数调用,允许纯文本配合正则表达式或CFG约束输出,大幅降低开发难度。
安全性:将奉承回复比例从14.5%降至不足6%,通过对抗性训练实现“诚实放弃”。
性能:在SWE-Bench和Aider Polyglot中位居榜首。
5.2 GPT-5.4(2026年3月):原生电脑操控的“智能体”时代
2026年3月5日发布,首款原生具备电脑操作能力的通用大模型,AI从“对话者”进化为“行动者”。
核心突破:能通过Playwright等库编写代码控制计算机,也能直接“看”屏幕截图并动用鼠标和键盘完成任务——发邮件、排日程、填表格、跑流程。工作流程:观察屏幕→理解UI→规划操作→执行(点击/输入/滚动)→验证结果→循环。
性能表现:
-
OSWorld-Verified桌面导航:75.0%成功率,超过人类平均72.4%(GPT-5.2为47.3%)
-
GDPval专业任务匹配率:83.0%达到或超过行业专业人士水平
-
事实错误率较GPT-5.2降低33%
-
投资银行建模任务得分:87.3%(GPT-5.2为68.4%)
-
MMMU-Pro视觉理解:81.2%
-
SimpleQA准确率62.5%,较GPT-4o提升24%,幻觉率下降25%
上下文窗口:API及Codex最高支持100万token,OpenAI迄今最大容量。
版本与定价:
-
GPT-5.4 Thinking:面向Plus/Team/Pro订阅用户,取代GPT-5.2 Thinking(2026年6月5日下线)
-
GPT-5.4 Pro:企业级,30美元/百万输入tokens,180美元/百万输出tokens
-
API标准版:2.5美元/百万输入,15美元/百万输出(因token效率提升,部分任务总成本反降)
专业整合:与电子表格、金融分析工具、Excel、浏览器、企业软件深度整合,可跨应用执行整套操作流程。
5.3 争议与挑战:GPT-5的“预训练停滞”
SemiAnalysis报告指出,自GPT-4o发布后,OpenAI未完成一次“为下一代前沿模型设计的完整大规模预训练”,GPT-5的基石可能是GPT-4o。Epoch AI算力检测显示GPT-5训练算力可能比GPT-4.5还少。有业内人士直言:“响应快、价格低,但根本不是预期中的代际飞跃。”
OpenAI策略或已转向:从“堆预训练算力”转向“优化推理范式”和“强化学习”。好处是模型更实用、更安全,坏处是在基础模型代际突破上可能被谷歌(TPUv7、Gemini 3)追赶。奥特曼在内部备忘录中承认谷歌在预训练领域表现出色。
六、全球主流LLM体系纵览
自ChatGPT问世以来,全球大语言模型进入爆发期,形成了多路线并行发展的格局。不同模型在推理能力、多模态融合、中文理解、开源生态、成本效率等方面各具特色。
6.1 主流LLM体系
模型体系 | 公司/机构 | 开放策略 |
GPT系列 | OpenAI | 闭源,主要通过API接口提供商业服务 |
Gemini系列 | Google DeepMind | 核心模型闭源,开放部分模型如Gemma系列,提供强大API服务 |
Claude系列 | Anthropic | 闭源,主要通过API接口提供商业服务 |
Grok系列 | xAI | 核心模型闭源,部分模型已开源,主要通过API接口 |
DeepSeek系列 | DeepSeek | 提供模型权重和代码,同时提供API接口服务 |
Qwen系列 | 阿里巴巴 | 提供绝大部分模型权重和代码,同时提供API接口 |
Kimi | Moonshot AI | 闭源,通过API接口提供服务 |
GLM系列 | 智谱AI | 核心模型闭源,部分版本已开源,同时提供API服务 |
Llama系列 | Meta | 提供模型权重和代码(虽常被称为开源,但许可证有限制) |
简要评述:
-
GPT系列
:行业标杆,能力全面,但闭源且价格较高。
-
Gemini系列
:多模态能力强,深度集成Google生态,预训练实力雄厚。
-
Claude系列
:以安全性和长上下文见长,企业级应用口碑好。
-
DeepSeek系列
:以高性价比和开源权重著称,在中文和推理任务上表现突出。
-
Qwen系列
:中文能力强,开源友好,覆盖从0.5B到72B等多种规模。
-
Llama系列
:学术和开源社区基石,生态最丰富,但中文支持相对较弱。
6.2 常用LLM榜单
LMArena:由加州大学伯克利分校团队创建的开放平台,用户可体验并对比各类主流大模型。通过用户对模型回答进行投票形成公开排行榜,直观、透明、贴近真实使用场景,是了解前沿大模型表现的重要参考。网址:lmsys.org/blog/2023-0…
司南(OpenCompass):由上海人工智能实验室发起的大模型评测体系,为大型语言模型、多模态模型等提供全栈、可复用、开放的评测工具、基准与榜单,在国内具有较高权威性。网址:opencompass.org.cn/home
七、2026年AI趋势:从“模型能力竞赛”到“系统级智能落地”
7.1 范式转移:为什么2026年被称为“AI元年”
2026年被行业普遍视为AI真正进入工程化与规模化应用的元年。这一转折来自一个现实变化:AI第一次系统性地跨越了“技术吸引力”与“商业可用性”之间的鸿沟。此前企业落地大模型面临的核心问题是“不可控”和“不可复现”——幻觉不是模型缺陷,而是概率模型的必然属性。2026年的变化在于:行业不再试图消灭概率,而是用系统工程去约束概率。
7.2 三大趋势
趋势一:复合AI系统成为主流架构
“单模型时代结束,系统级AI时代开始”。复合AI系统不依赖单一模型输出,而是将模型嵌入由规则、工具、数据与流程组成的确定性系统中。AI开发从“提示词工程”进入“流程工程”阶段。
趋势二:智能体的成熟
智能体第一次具备了可规模化的工作能力。AI不再只是回答问题,而是规划任务、调用工具、执行流程、交付结果。GPT-5.4的原生电脑操控是这一趋势的最佳注脚。成熟的智能体系统收敛为三层结构:记忆(短期上下文和长期业务知识)、规划(思维链/思维树/多路径自检与回滚)、行动(API调用、数据库操作、软件控制)。
趋势三:端侧模型与垂直智能的崛起
当通用大模型的Scaling Law边际收益下降,“小模型+专用场景”全面爆发。随着量化技术与NPU硬件成熟,3B-7B参数模型已可在PC与移动端稳定运行,带来数据不出端、隐私可控、零延迟交互、显著降低推理成本等价值。
7.3 算力需求爆炸式增长
摩根士丹利2026年4月研报指出,从2026年1月初至3月,全球每周Token使用量从6.4万亿次骤升至22.7万亿次,增幅约250%。部分LLM服务商已被迫实施使用上限。算力需求“系统性超越供给”,未来竞争不只是模型谁更强,还包括谁更便宜、谁更高效。
八、总结:从GPT-1到GPT-5的“能力跃迁”
第一阶段(GPT-1 → GPT-2):“证明可行”
-
验证Decoder-only架构和预训练-微调范式
-
Pre-LayerNorm优化深层训练
-
初步展示零样本泛化
第二阶段(GPT-3 → GPT-4):“规模即能力”
-
参数从1亿级跃升到万亿级
-
稀疏注意力、MoE架构解决长文本和推理成本问题
-
上下文窗口从512扩展到128k
-
多模态能力加持,上下文学习成为核心能力
第三阶段(InstructGPT → ChatGPT → GPT-5):“对齐即智能”
-
RLHF让模型学会“听话”
-
对话能力、安全性、有用性全面提升
-
统一路由架构实现动态推理路径分配
-
从“高中生”到“博士级专家”的感知升级
第四阶段(GPT-5.4 → 未来):“行动即价值”
-
原生电脑操控,AI从对话者变为行动者
-
智能体工作流,从回答问题到完成工作
-
复合AI系统,从单模型到系统级智能
-
首次在桌面操控测试中超越人类基线(75.0% > 72.4%)
最后思考:当GPT-5.4能够原生操控电脑、独立完成金融建模和法律分析时,我们离真正的“自主智能体”还有多远?没有标准答案。但有一点确定:大语言模型的发展,已经从“让它更聪明”进入到了“让它动起来”的新阶段。而“动起来”的AI,带来的改变将远超我们今天的想象。