1、引言
如果说过去几年我们还在讨论AI如何改变世界,那么今天这个问题已经有了毋庸置疑的答案。大语言模型的浪潮正席卷而来,它不再是遥远的未来概念,而是我们每个人触手可及的生产力工具,深刻地改变着我们编写代码、获取知识和进行创造的方式。
然而这场看似突然的革命并非一日之功。我们今天所惊叹的AI时代,是冰山浮于水面之上的璀璨一角,其下是计算机科学家长达数十年的不懈探索,我们不禁要问:
- 我们是如何从简单的词频统计,一步步走到今天这个能够进行复杂推理的大语言模型?
- 在革命性的Transformer架构诞生后,技术路线又演化出了哪些主要的流派?
- 如今主流的大语言模型,在技术路径和迭代历程上又有哪些不同?
本文将作为我个人一份系统性的学习总结,希望能为你清晰地梳理出大语言模型发展的完整脉络,并一同探索上述问题的答案。
2、Transformer诞生前的探索
任何一场技术革命都不是凭空产生的。在Transformer的论文《Attention is All You Need》发表之前,在NLP领域尝试让机器理解自然语言,已经进行了数十年的探索。在这一部分,就让我们回到那个前夜,看看传统NLP技术是如何一步一步演进,又最终遇到难以逾越的墙。
2.1 统计语言模型(n-gram)
最早的尝试可以追溯到统计语言模型,其中最经典的就是n-gram模型。它的思想非常朴素:一个词的出现,只取决于它前面有限的几个词。这种方法虽然简单直观,但很快就暴露其致命的缺陷——它无法真正理解语言,因为它只能看到一个有限的窗口,无法捕捉更长距离的语义依赖,也处理不了词语的泛化问题。
2.2 循环神经网络(RNN)
为了克服n-gram的局限,研究者们将目光投向了神经网络。循环神经网络(RNN)应运而生,它被设计用于专门处理序列数据。RNN的革命性在于引入了隐藏状态的概念,在每个step中,RNN不仅处理当前的输入,还会接收来自上一步的隐藏状态,就好像拥有了短期记忆。理论上,这个隐藏状态可以编码从序列开始到当前位置的所有信息,这就让模型第一次有了捕捉上下文的能力。
但理论上的完美在现实中遇到了巨大的挑战。RNN的短期记忆是脆弱的,在处理长序列时,它会遭遇“梯度消失/爆炸”的问题。在训练过程中,来自序列早期的信息很难有效地传递到序列的末端,这会导致RNN的记忆非常短暂,对于长距离依赖关系,信息在传递的链条中会逐渐被冲淡和遗忘,从而无法返回准确的结果。
2.3 长短期记忆网络(LSTM)
为了解决RNN的“健忘症”,长短期记忆网络(LSTM)被设计出来。它的核心思想,不再是让信息无差别地进行流动,而是在RNN基础上,引入了精密的“门控机制”来智能地管理信息,设计了三个阀门:遗忘门、输入门和输出门。这套机制允许模型有选择地忘记无关信息,记忆重要信息,并决定在当前时刻输出的内容。这极大地缓解了长期依赖的问题,在Transformer架构出现之前,LSTM+GRU几乎是所有顶级NLP模型的顶配。
2.4 难以逾越的瓶颈
LSTM的出现,无疑是NLP发展史上一个巨大飞跃。然而其内部循环的本质,模型必须按部就班地,对一个词一个词地进行序列化计算,在追求更大模型、更大数据量的时代,这种无法并行化的特性成为一个不可逾越的性能瓶颈。同时对于超长序列,信息传递的路径依然很漫长,依赖问题并未被根除。整个领域都在期待一种全新的,可以彻底摆脱“循环”束缚,拥抱并行化计算的架构,历史的舞台已经搭好,静待主角登场。
3、Transformer架构的革命
2017年,Google的研究者们带来了答案,他们发表了一篇名为《Attention is All You Need》的论文,这篇论文的影响力如此深远(截止2025年6月,论文被引数超过18万次),以至于它成为整个大语言模型浪潮的“奇点”,它的核心思想是通过引入“注意力”机制来构建大语言模型。
3.1 自注意力机制
自注意力机制(Self-Attention)是Transformer架构的灵魂。它为模型提供了一个全新的、更强大的能力:在处理一个句子时,能够同时关注到句子中的所有词,并动态地判断出哪些词对于理解当前词最为重要,类似划重点的概念。
示例
The animal didn't cross the street because it was too tired.
为了理解这一点,我们可以看上面一个简单的句子。当我们读到it时,我们会将注意力集中在animal上,而不是其他的单词,自注意力机制做的就是类似的事情,它在处理it这个词时, 会计算出句子中其他词对于它的注意力分数。在这个例子中,animal的分数会比其他词高出很多,模型通过这种方式,就理解了词与词之间复杂的依赖关系。
技术原理
那么模型在技术上是如何实现的呢?它为输入序列中的每个词都生成了Q、K、V三个不同的向量。
- 查询向量(Query,Q) :代表当前在处理的词。
- 键向量(Key,K) :代表句子中所有词用于被检索的标签。
- 值向量(Value,V) :代表句子中所有词自身包含的实际内容。
整个计算过程可以简化成三步,第一步将当前词的Query,与句中所有词的Key向量进行点积运算,得出一个相关性分数,分数越高,代表关系越密切;第二步将计算得到的分数进行一次归一化计算,这就是注意力权重,代表应该在每个词上分配的注意力;第三步将这些注意力权重,分别乘以对应的Value向量,然后将所有结果累加起来,这样注意力权重越高的词,其信息在最后结果中的占比就越大。
革命性优势
这套看似简单的机制,正是Transformer的革命性所在。它解决了RNN的两个核心的痛点:
- 并行化计算:在自注意力中,每个词的Q,K,V以及后续的注意力权重计算,都只依赖输入本身,而与其他词的计算过程无关,这意味着所有词的计算可以在GPU上并行处理,这为训练更大的模型提供了可能。
- 最短依赖路径:在RNN中,句子首尾两个词的信息需要跨越整个句子的长度。而在自注意力机制中,任何两个词的依赖关系都可以通过一次计算直接建立,这使得模型可以完美捕捉长距离依赖关系。
3.2 关键组件
自注意力机制为模型提供了并行捕捉全局上下文的能力,为了让这个强大的机制可以稳定、高效地工作,并理解语言中更丰富的细微差别,Transformer的作者们还设计了一套精妙的组件,共同构成了一个强大的Transformer层。
多头注意力(Multi-Header Attention)
单个注意力机制,好比让一个人用一种固定的视角去理解句子。但语言是复杂的,一个词与另一个词的关系可能是多个维度的。例如,在‘我昨天在北京吃了烤鸭’这句话中,‘吃’这个词既与主语‘我’有施动关系,又与地点‘北京’有位置关系,还与宾语‘烤鸭’有动宾关系。只用一个注意力头,难以去同时捕捉所有这些不同类型的关系。
多头注意力的思想,就是组建一个“专家委员会”来共同分析句子,通过生成多组Q-K-V,每一组被称为一个注意力头,最后模型将所有注意力头的输出拼接起来,通过一次线性变换进行组合,得出一个综合多个角度的结果。
位置编码(Positional Encoding)
自注意力机制的核心是并行计算,它将句子视为一个无序的“词袋”。这带来巨大效率提升的同时,也产生了一个致命的问题,模型失去了对词语顺序的感知。即“国王杀死了王后”和“王后杀死了国王”这两句话,在纯粹的自注意力模型来看是一样的,这显然是不能接受的。
为了解决这个问题,Transformer引入了位置编码,在将词变量输入给模型之前,给每个词向量加上一个代表其位置的标签。这个地址标签是与词向量维度相同的向量,是通过固定的sin和cos函数生成的。
前馈神经网络(Feed-Forward Network)
在每个注意力模块后,Transformer层还包括一个简单但至关重要的全连接前馈神经网络(FFN)。注意力机制的职责是让每个词都充分吸收来自全局上下文的信息,FFN的职责就是对每个位置的词进行一次非线性的深度加工,提取更高层次的特征。
最后为了让模型可以稳定训练,Transformer的每个子模块都会包裹在“残差连接和归一化”结构中。残差连接将子模块的输入直接加到其输出上,确保原始信息在多层变换中不会丢失,极大缓解深度学习中的梯度消失问题。层归一化则是负责将数据拉回到一个标准的分布上,确保数据流在深层网络中保持稳定。
3.3 Encoder-Decoder架构
至此,我们已经了解了Transformer层的大部分核心组件:多头自注意力、位置编码、前馈网络以及支撑它们的残差网络。是时候将它们组装起来,来看下Transformer层的完整设计。其经典的架构,是由两个协同工作的部分组成:编码器(Encoder)和解码器(Decoder)。
编码器Encoder
编码器的唯一职责就是深入地“阅读”和“理解”输入的整个句子。它并不生成任何内容,它的目标是为输入序列的每一个词,都生成一个包含全局上下文信息的,深刻的向量表示,表示对原始句子的完整理解。从上图的左侧可以看出,编码器是由一些完全相同的层堆叠而成的,每一层都包含两个我们熟悉的模块:
- 一个多头自注意力模块:它让输入句子中的每个词都能充分关注到句子中所有其他词,捕捉内部依赖。
- 一个前馈网络:对自注意力模块的输出进行一次深度的加工。
解码器Decoder
解码器的职责是根据编码器提供的理解,来一个词一个词地生成目标句子。它就像一个聪明的作家,在动笔写下每个词之前,都会仔细参考阅读者传递过来的笔记。从上图的右侧可以看出,解码器也是由一些相同的层堆叠而成,但它的每一层要更为复杂,包含三个模块:
- 一个带掩码的多头自注意力模块:这是解码器对已经生成的部分进行注意力计算,这里的掩码非常重要,它确保解码器在预测第
i个词时,只能关注生成的前i-1个词,不能偷看未来的答案,保证生成过程的合理性。 - 交叉注意力:这是连接编码器和解码器的桥梁,也是整个架构的精髓所在。在这个模块中,它的Query来自解码器自身,但它的Key和Value全部来自编码器的输出。这使得解码器在生成一个词时,会关注到原始输入句子中的所有部分,并根据上下文信息判断哪些部分对生成的词最重要。
- 一个前馈网络:与编码器中的作用相同。
输出向量到文字
当解码器的计算完成后,其顶层会输出一个向量。这个向量会经过最后一个线性层的变换,将其映射到整个词汇表的大小。最后,一个Softmax层会将这些数值转换成概率分布,从词汇表中选取概率最高的那个词,作为本次Step的输出结果。
3.4 技术路线的演进
Transformer的Encoder-Decoder架构提供一个强大而且完整的能力,可以完美地胜任机器翻译等序列到序列的任务。然而,研究者们很快就意识到,并非所有自然语言的任务都需要这样一个完整的“输入 - 理解 - 输出 - 生成”的链条。于是他们对于原始架构做了一些创造性的拆解和重组,这催生了大模型发展后续的三条主流技术路线。
Decoder-only路线:生成式模型
这条路线选择只保留Transformer的解码器部分。其核心目标是生成,即根据一段已有的文本,预测下一个最有可能的词。这条路线上的模型,就像一个专注于续写的作家,唯一的任务就是读懂已写的上文,然后思考并写出下一个最合乎逻辑和语法的词。不需要一个独立的编码器去理解一个与生成任务无关的输入。
OpenAI的GPT系列模型是这条路线坚定的践行者。从GPT-1他们就专注于打磨Decoder-only架构,最终证明了这种架构在文本生成、对话系统、代码编写乃至遵循复杂指令等任务上拥有惊人的潜力。
Encoder-only路线:理解式模型
与GPT的思路相反,这条路线选择只保留Transformer的编码器部分。其核心目标在于理解,而不是生成,它目标在对输入的整个句子或段落有一个深刻,完整的上下文感知。这条路线上的模型,就像一个语言学的“侦探”,在拿到一句完整的,但有几个被涂黑的话,他的任务是利用完整的上下文来推断出最合理的原文。
Google推出的BERT是这条路线的开山之作。它在各种自然语言理解(NLU)任务上,如文本分类、情感分析、命名实体识别等,取得了统治级的表现,深刻影响了搜索、推荐等系统的发展。
Encoder-Decoder路线:序列到序列任务
这条路线坚持使用完整的Transformer原始架构,充分利用编码器和解码器的协同工作能力。Google的T5模型是这条路线的集大成者,它巧妙地将所有NLP任务都统一成了“文本到文本”的格式,充分发挥了完整架构的威力。Facebook的BART也是这条路线上的重要模型,它们在翻译、摘要等任务上依然是业界的首选方案之一。
3.5 小结
至此第三部分就介绍完了,我们从Transformer架构的核心开始讲起,拆解了核心组件,并展示了Encoder-Decoder架构,最后从技术视角描述了三条不一样的演进路线,接下来我们将对主流的大语言模型进行深度剖析。
4、主流大语言模型深度剖析
Transformer为大模型时代提供了统一的架构,但真正精彩的部分是各个科技巨头和研究机构如何基于这个架构,注入更多独有的特性。这不是一个单纯的参数竞赛,而是一场关于数据、算法、工程和安全的全方位博弈。在这一部分,我们会逐一剖析当前主流的大语言模型,探究它们各自的迭代历程,核心的技术优势。
4.1 OpenAI - GPT系列
在探讨当今的大语言模型版图时,OpenAI是无论如何都绕不开的起点。它不仅是技术先行者,更是范式的定义者。从GPT-1的初步探索到GPT-4o的惊艳亮相,OpenAI的发展史,几乎就是一部浓缩的大语言模型的演进史。
迭代历程
OpenAI早期的探索,通过三代GPT模型,为后续的模型奠定了坚实的基础。
- GPT-1(2018) 首次实践了生成式预训练和任务微调的范式,在当时并未引起巨大轰动。
- GPT-2(2019) 将模型参数扩大至15亿,展现出惊人的零样本能力。
- GPT-3(2020) 是一次真正的飞跃,凭借着1750亿的庞大参数,正式提出了上下文学习的概念,用户只需给出几个示例,就能完成类似的任务,无需复杂的微调。
尽管GPT-3的模型足够强大,但只会根据概率进行续写,时常会生成无用、虚假甚至有害的内容。Instruct GPT通过引入基于人类反馈的强化学习(RLHF),将模型的行为与人类的意图进行对齐,OpenAI基于此推出了ChatGPT(2022) 产品,引爆了全球。但OpenAI并未停下脚步,GPT-4(2023) 带来了推理能力的巨大飞跃,开始接收图像作为输入,向多模态进行迈进;GPT-4o (2024) 实现了原生的、端到端的多模态交互,带来了极低延迟、更自然的交互体验,预示着人机交互的下一个方向。
技术优势
坚定不移的Decoder-only架构,专注于打磨模型的的自回归生成能力。
Scaling Law的信仰。OpenAI的研究表明,随着模型参数,数据量和计算量的指数增加,模型的性能也会可预测地、平滑地提升,当模型规模跨越某个关键的临界点后,会表现出量变引发质变的现象——“涌现能力”(Emergent Abilities)。
基于人类反馈的强化学习(RLHF)。如果说Scaling Law解决了模型的能力问题,那么RLHF则解决了模型的意图问题,这是一个经过巧妙设计的三个阶段的过程:
- 第一步,监督微调(Supervised Fine-Tuning) :雇佣人类标注员,编写大量高质量的‘指令-回答’对。用这些数据对预训练好的GPT模型进行微调,让模型初步学会如何遵循指令,并模仿人类的回答风格。
- 第二步,训练奖励模型(Reward Model) :让SFT后的模型对同一个指令生成不同的回答,然后人类标注员对这些回答进行排序。用这些排序数据训练出一个奖励模型,来给一个回答打分,预测人类会更喜欢哪个回答。
- 第三步,近端策略优化(Proximal Policy Optimization) :这是最关键的调优环节,PPO算法的目标,就是让模型学会在最大化奖励分数的同时(生成人类更喜欢的回答),又不要与第一步的SFT后的模型偏离太远(防止模型为了高分而胡言乱语)。
4.2 Meta - LLaMA系列
如果说OpenAI定义了大语言模型开发的范式,那么Meta的LLaMA模型则改变了游戏的规则,将被少数公司闭源垄断的大模型之火带到了开源社区,LLaMA的崛起之路,是一部关于技术民主化、开放与极致优化的史诗。
迭代历程
- LlaMA 1(2023.2) 的首次亮相是作为一个研究性质的模型,但在其权重意外泄露后,迅速在开源社区引爆,开发者们发现一个仅有7B的LLaMA模型,经过优化后可以在消费级硬件上运行,性能足可以媲美比它大10倍的GPT-3。
- 面对开源社区的热情,Meta发布了LlaMA 2(2023.7) 不仅将训练数据量提升了40%,上下文长度提升至4096,并首次开发商业许可。
- LlaMA 3(2024.4) 和LlaMA 3.1(2024.7) 在使用高达15万亿Token的高质量数据训练的同时,模型参数也扩大至405B,上下文窗口也扩展至128k,其性能与业界顶尖的闭源模型几乎打平。
技术优势
- 基础架构的优化:通过引入前置层归一化(RMSNorm),提升训练的稳定性和效率;使用SwiGLU激活函数,函数曲线更平滑,提升模型的表达能力;在位置编码上,采用旋转位置编码(RoPE),具有更好的外推能力,可以无需微调就泛化到更长文本上。
- 推理效率的提升:分组注意力查询(GQA),通过让多个注意力头来共享一组K和V,在不影响模型性能前提下,大幅降低K-V Cache瓶颈,显著提升推理速度;在强化学习阶段,使用直接偏好优化(DPO),移除奖励模型,用一个单一、稳定的损失函数来替代。
4.3 Anthropic - Claude系列
在群雄逐鹿的大模型战场上,Anthropic是一个独特的存在。它是由一群来自OpenAI的核心成员创立,目标是在追求性能的基础上,将“安全、可信、负责人”的理念,注入到大语言模型中,基于此它们推出了Claude系列模型。
迭代历程
- Claude1 & 2(2022) : 早期的Claude 1和2,便凭借其与众不同的对话风格——更倾向于合作、解释和拒绝不当请求——在市场中脱颖而出,同时,它们从一开始就展现出强大的长文本处理能力。
- Claude 3(2023) : Claude 3的发布是Anthropic的一个里程碑,它不再是单一的模型,而是一个家族系列(Opus-旗舰,Sonnet-平衡,Haiku-轻量),在多个权威的数据集上的表现首次全面超过了GPT-4。
- Claude 4(2025) : Claude 4是全球领先的编码模型,尤其是在复杂、长时间运行的任务和代理工作流中拥有持续的性能。
技术优势
- 宪法AI(Constitutional AI) :Claude系列最核心的技术护城河,是其独创的宪法AI(CAI),这套方法论旨在让AI学会自我约束,而不仅仅依赖人类的监督。
- 长上下文和编码能力:Claude系列在长上下文处理上持续领先,尤其是在著名的“大海捞针”(Needle in a Haystack)测试中表现优异;另外在编码任务上的表现也好于其他模型,主要原因是理解代码背后的原理,而非模型撇匹配。
4.4 Google - Gemini系列
Google在大语言模型演变的这场戏剧中,扮演的角色最为特殊,既是这场戏剧的剧本作者,又是在开场之后一度沉寂在背后的“幕后巨人”。当Gemini正式登场后,这不仅仅是一个科技巨头的强势回归,更是一个真正原生的多模态时代的到来。
迭代历程
- Gemini-1.0(2023.12) : 首次亮相就推出了三个版本:Ultra-性能最强,Pro-平衡性能和成本,Nano-轻量,高效的端侧模型,设计于在手机等移动设备上运行。
- Gemini-1.5 Pro(2024.2) : 1.5 Pro首次将模型的上下文窗口扩展是100万Token,并成功展示在“大海捞针”测试的能力,并通过高效的MoE架构保持模型的效率。
- Gemini-2.5 Pro(2025.3) : 2.5 Pro在推理能力上有非常大的突破,在响应之前,内部进行多步骤的推理和思考,这极大地提升了其处理复杂问题的能力。
技术优势
- CoT架构:Gemini-2.5 Pro的核心在于内置的思考能力,类似Chain of Thought的模式,带来了显著的推理能力提升,以及通过自适应思考和思考预算等方式实现可控的思考深度,在性能和成本之间达成
- 原生多模态和超长上下文:Gemini-2.5 Pro的思考能力,是建立在之前系列模型强大的基础能力之上的,包括原生多模态能力(处理文本、图像、音视频等),以及超百万级Token的上下文窗口,可以对海量的信息进行分析和处理。
4.5 幻方量化 - DeepSeek系列
在由科技巨头主导LLM迭代的背景下,来自国内幻方量化的DeepSeek走出了一条令人瞩目的成功之路。一开始没有选择在通用基座模型上做追赶,而是选择了一个极具挑战性的垂直领域——代码生成,做到世界顶尖,然后带着沉淀的工程理解和架构创新,在通用LLM领域发起了一场挑战。
迭代历程
- DeepSeek Coder(2023.11) : 基于高质量的代码训练集,通过代码填空的训练方式,使得模型对代码的结构和逻辑有着更深层次的理解。
- DeepSeek V2(2024.5) : V2的发布是2024年开源社区最重磅的消息之一,它不仅是简单的性能提升,而是一次彻底的架构革命,凭借其创新的MLA和MoE架构,DeepSeek-V2不仅在性能上与LlaMA 3 70B等顶级开源模型打平,在推理成本上更是降低数倍。
- DeepSeek R1(2025.1) : DeepSeek系列的首个推理大模型,对用户开放了思维链过程,在仅有少量标注数据的情况下,极大提升了模型的推理能力。
技术优势
- 多头潜在注意力(MLA) :目的在于解决标准的自注意力机制中,在处理长文本时,K-V Cache带来的巨大内存瓶颈,它通过引入一个低维的潜在向量作为中转站,极大降低了内存占用和计算量。
- 混合专家机制(MoE) :DeepSeek采用MoE架构来实现更低的计算成本,来换取更大的模型容量。它将神经网络的不同部分设计成多个专家,每次推理时只激活与任务相关的少数几个专家。
- MoE和MLA组合:DeepSeek的强大之处在于将MoE和MLA进行深度融合,MLA作为效率引擎,负责解决注意力层的计算和内存瓶颈,MoE作为知识引擎,负责扩展模型的知识容量,两者结合最终实现了高性能、低成本和超长上下文的能力。
4.6 小结
这一部分我们剖析了OpenAI、Google、Meta和DeepSeek等主流大语言模型,它们各自凭借着独特的技术架构,数据和安全理念,在AI领域占据了不同的生态位。那么开发者在AI时代的背景下,该如何提升自己的能力,跟上时代的发展不被落下呢,在本文的最后会从我个人的视角来做下探讨。
5、AI时代的程序员进阶指南
当AI Coding发展得愈发成熟时,一种复杂的心情会在开发者中间蔓延,一半会为效率的提升而感到的兴奋,另一半则是因为自身价值可能被稀释而感到焦虑,这很正常。但从历史的发展看,每一场技术革命都不会消灭创造者,只会淘汰那些拒绝使用新工具的人。因此在AI时代,逐行编写代码的熟练度不再是程序员的优势,转而是定义问题、设计系统、利用AI能力推动更完美地落地,才是我们的核心价值。
拥抱新的编程哲学
拥抱新的编程哲学,意味着在思维上的一次深刻的转变。我们必须从追求确定性的编程模式,转向通过引导、验证和约束AI来生成的概率性模式,这一转变将我们的角色从亲力亲为的“执行者”,提升为可以编排多个AI能力的“指挥家”。当AI逐渐可以解决“怎么做”的技术实现后,我们可以把精力逐渐放在找寻问题,定义“为什么做”的过程,深刻洞察用户、进行系统设计和解决复杂的业务问题。
构建AI技术栈
构建每个人自己的AI技术栈,可以从三个阶段来展开:
- 第一阶段利用AI工具来增强生产力,通过Prompt(Context) Engineering来让AI成为你的得力助手,可以借助Cursor,Trae等AI IDE工具。
- 第二阶段,将AI能力集成到业务中,创造新的产品价值,例如通过RAG来集成业务知识库,这时需要学习AI的开发框架,例如LangChain、LlamaIndex等。
- 第三阶段解决通用模型无法满足的特定领域的问题,这时可能需要基于特定的数据集来做模型微调,在推理速度、成本和多模型路由等方面的工程问题等。
行动起来
不要犹豫,现在就开始!最好的学习方式就是实践,可以先从构建一个对自己有用的小工具开始,例如一个帮助你总结文章的Bot,一个基于RAG可以回答你团队知识库文档内容的问答Bot等,然后再逐步地去学习其中的每个细节。另外定期关注AI领域的进展也很重要,例如各个LLM的官方博客,优质社区模块(例如Hugging Face等)。