一部简明扼要的LLM发展史本文将作为我个人一份系统性的学习总结，希望能为你清晰地梳理出大语言模型发展的完整脉络，并一同探

1、引言

如果说过去几年我们还在讨论AI如何改变世界，那么今天这个问题已经有了毋庸置疑的答案。大语言模型的浪潮正席卷而来，它不再是遥远的未来概念，而是我们每个人触手可及的生产力工具，深刻地改变着我们编写代码、获取知识和进行创造的方式。

然而这场看似突然的革命并非一日之功。我们今天所惊叹的AI时代，是冰山浮于水面之上的璀璨一角，其下是计算机科学家长达数十年的不懈探索，我们不禁要问：

我们是如何从简单的词频统计，一步步走到今天这个能够进行复杂推理的大语言模型？
在革命性的Transformer架构诞生后，技术路线又演化出了哪些主要的流派？
如今主流的大语言模型，在技术路径和迭代历程上又有哪些不同？

本文将作为我个人一份系统性的学习总结，希望能为你清晰地梳理出大语言模型发展的完整脉络，并一同探索上述问题的答案。

2、Transformer诞生前的探索

任何一场技术革命都不是凭空产生的。在Transformer的论文《Attention is All You Need》发表之前，在NLP领域尝试让机器理解自然语言，已经进行了数十年的探索。在这一部分，就让我们回到那个前夜，看看传统NLP技术是如何一步一步演进，又最终遇到难以逾越的墙。

2.1 统计语言模型（n-gram）

最早的尝试可以追溯到统计语言模型，其中最经典的就是n-gram模型。它的思想非常朴素：一个词的出现，只取决于它前面有限的几个词。这种方法虽然简单直观，但很快就暴露其致命的缺陷——它无法真正理解语言，因为它只能看到一个有限的窗口，无法捕捉更长距离的语义依赖，也处理不了词语的泛化问题。

2.2 循环神经网络（RNN）

为了克服n-gram的局限，研究者们将目光投向了神经网络。循环神经网络（RNN）应运而生，它被设计用于专门处理序列数据。RNN的革命性在于引入了隐藏状态的概念，在每个step中，RNN不仅处理当前的输入，还会接收来自上一步的隐藏状态，就好像拥有了短期记忆。理论上，这个隐藏状态可以编码从序列开始到当前位置的所有信息，这就让模型第一次有了捕捉上下文的能力。

但理论上的完美在现实中遇到了巨大的挑战。RNN的短期记忆是脆弱的，在处理长序列时，它会遭遇“梯度消失/爆炸”的问题。在训练过程中，来自序列早期的信息很难有效地传递到序列的末端，这会导致RNN的记忆非常短暂，对于长距离依赖关系，信息在传递的链条中会逐渐被冲淡和遗忘，从而无法返回准确的结果。

2.3 长短期记忆网络（LSTM）

为了解决RNN的“健忘症”，长短期记忆网络（LSTM）被设计出来。它的核心思想，不再是让信息无差别地进行流动，而是在RNN基础上，引入了精密的“门控机制”来智能地管理信息，设计了三个阀门：遗忘门、输入门和输出门。这套机制允许模型有选择地忘记无关信息，记忆重要信息，并决定在当前时刻输出的内容。这极大地缓解了长期依赖的问题，在Transformer架构出现之前，LSTM+GRU几乎是所有顶级NLP模型的顶配。

2.4 难以逾越的瓶颈

LSTM的出现，无疑是NLP发展史上一个巨大飞跃。然而其内部循环的本质，模型必须按部就班地，对一个词一个词地进行序列化计算，在追求更大模型、更大数据量的时代，这种无法并行化的特性成为一个不可逾越的性能瓶颈。同时对于超长序列，信息传递的路径依然很漫长，依赖问题并未被根除。整个领域都在期待一种全新的，可以彻底摆脱“循环”束缚，拥抱并行化计算的架构，历史的舞台已经搭好，静待主角登场。

3、Transformer架构的革命

2017年，Google的研究者们带来了答案，他们发表了一篇名为《Attention is All You Need》的论文，这篇论文的影响力如此深远（截止2025年6月，论文被引数超过18万次），以至于它成为整个大语言模型浪潮的“奇点”，它的核心思想是通过引入“注意力”机制来构建大语言模型。

3.1 自注意力机制

自注意力机制（Self-Attention）是Transformer架构的灵魂。它为模型提供了一个全新的、更强大的能力：在处理一个句子时，能够同时关注到句子中的所有词，并动态地判断出哪些词对于理解当前词最为重要，类似划重点的概念。

示例

The animal didn't cross the street because it was too tired.

为了理解这一点，我们可以看上面一个简单的句子。当我们读到it时，我们会将注意力集中在animal上，而不是其他的单词，自注意力机制做的就是类似的事情，它在处理it这个词时，会计算出句子中其他词对于它的注意力分数。在这个例子中，animal的分数会比其他词高出很多，模型通过这种方式，就理解了词与词之间复杂的依赖关系。

技术原理

那么模型在技术上是如何实现的呢？它为输入序列中的每个词都生成了Q、K、V三个不同的向量。

查询向量（Query，Q） ：代表当前在处理的词。
键向量（Key，K） ：代表句子中所有词用于被检索的标签。
值向量（Value，V） ：代表句子中所有词自身包含的实际内容。

整个计算过程可以简化成三步，第一步将当前词的Query，与句中所有词的Key向量进行点积运算，得出一个相关性分数，分数越高，代表关系越密切；第二步将计算得到的分数进行一次归一化计算，这就是注意力权重，代表应该在每个词上分配的注意力；第三步将这些注意力权重，分别乘以对应的Value向量，然后将所有结果累加起来，这样注意力权重越高的词，其信息在最后结果中的占比就越大。

革命性优势

这套看似简单的机制，正是Transformer的革命性所在。它解决了RNN的两个核心的痛点：

并行化计算：在自注意力中，每个词的Q，K，V以及后续的注意力权重计算，都只依赖输入本身，而与其他词的计算过程无关，这意味着所有词的计算可以在GPU上并行处理，这为训练更大的模型提供了可能。
最短依赖路径：在RNN中，句子首尾两个词的信息需要跨越整个句子的长度。而在自注意力机制中，任何两个词的依赖关系都可以通过一次计算直接建立，这使得模型可以完美捕捉长距离依赖关系。

3.2 关键组件

自注意力机制为模型提供了并行捕捉全局上下文的能力，为了让这个强大的机制可以稳定、高效地工作，并理解语言中更丰富的细微差别，Transformer的作者们还设计了一套精妙的组件，共同构成了一个强大的Transformer层。

多头注意力（Multi-Header Attention）

单个注意力机制，好比让一个人用一种固定的视角去理解句子。但语言是复杂的，一个词与另一个词的关系可能是多个维度的。例如，在‘我昨天在北京吃了烤鸭’这句话中，‘吃’这个词既与主语‘我’有施动关系，又与地点‘北京’有位置关系，还与宾语‘烤鸭’有动宾关系。只用一个注意力头，难以去同时捕捉所有这些不同类型的关系。

多头注意力的思想，就是组建一个“专家委员会”来共同分析句子，通过生成多组Q-K-V，每一组被称为一个注意力头，最后模型将所有注意力头的输出拼接起来，通过一次线性变换进行组合，得出一个综合多个角度的结果。

位置编码（Positional Encoding）

自注意力机制的核心是并行计算，它将句子视为一个无序的“词袋”。这带来巨大效率提升的同时，也产生了一个致命的问题，模型失去了对词语顺序的感知。即“国王杀死了王后”和“王后杀死了国王”这两句话，在纯粹的自注意力模型来看是一样的，这显然是不能接受的。

为了解决这个问题，Transformer引入了位置编码，在将词变量输入给模型之前，给每个词向量加上一个代表其位置的标签。这个地址标签是与词向量维度相同的向量，是通过固定的sin和cos函数生成的。

前馈神经网络（Feed-Forward Network）

在每个注意力模块后，Transformer层还包括一个简单但至关重要的全连接前馈神经网络（FFN）。注意力机制的职责是让每个词都充分吸收来自全局上下文的信息，FFN的职责就是对每个位置的词进行一次非线性的深度加工，提取更高层次的特征。

最后为了让模型可以稳定训练，Transformer的每个子模块都会包裹在“残差连接和归一化”结构中。残差连接将子模块的输入直接加到其输出上，确保原始信息在多层变换中不会丢失，极大缓解深度学习中的梯度消失问题。层归一化则是负责将数据拉回到一个标准的分布上，确保数据流在深层网络中保持稳定。

3.3 Encoder-Decoder架构

至此，我们已经了解了Transformer层的大部分核心组件：多头自注意力、位置编码、前馈网络以及支撑它们的残差网络。是时候将它们组装起来，来看下Transformer层的完整设计。其经典的架构，是由两个协同工作的部分组成：编码器（Encoder）和解码器（Decoder）。

编码器Encoder

编码器的唯一职责就是深入地“阅读”和“理解”输入的整个句子。它并不生成任何内容，它的目标是为输入序列的每一个词，都生成一个包含全局上下文信息的，深刻的向量表示，表示对原始句子的完整理解。从上图的左侧可以看出，编码器是由一些完全相同的层堆叠而成的，每一层都包含两个我们熟悉的模块：

一个多头自注意力模块：它让输入句子中的每个词都能充分关注到句子中所有其他词，捕捉内部依赖。
一个前馈网络：对自注意力模块的输出进行一次深度的加工。

解码器Decoder

解码器的职责是根据编码器提供的理解，来一个词一个词地生成目标句子。它就像一个聪明的作家，在动笔写下每个词之前，都会仔细参考阅读者传递过来的笔记。从上图的右侧可以看出，解码器也是由一些相同的层堆叠而成，但它的每一层要更为复杂，包含三个模块：

一个带掩码的多头自注意力模块：这是解码器对已经生成的部分进行注意力计算，这里的掩码非常重要，它确保解码器在预测第i个词时，只能关注生成的前i-1个词，不能偷看未来的答案，保证生成过程的合理性。
交叉注意力：这是连接编码器和解码器的桥梁，也是整个架构的精髓所在。在这个模块中，它的Query来自解码器自身，但它的Key和Value全部来自编码器的输出。这使得解码器在生成一个词时，会关注到原始输入句子中的所有部分，并根据上下文信息判断哪些部分对生成的词最重要。
一个前馈网络：与编码器中的作用相同。

输出向量到文字

当解码器的计算完成后，其顶层会输出一个向量。这个向量会经过最后一个线性层的变换，将其映射到整个词汇表的大小。最后，一个Softmax层会将这些数值转换成概率分布，从词汇表中选取概率最高的那个词，作为本次Step的输出结果。

3.4 技术路线的演进

Transformer的Encoder-Decoder架构提供一个强大而且完整的能力，可以完美地胜任机器翻译等序列到序列的任务。然而，研究者们很快就意识到，并非所有自然语言的任务都需要这样一个完整的“输入 - 理解 - 输出 - 生成”的链条。于是他们对于原始架构做了一些创造性的拆解和重组，这催生了大模型发展后续的三条主流技术路线。

Decoder-only路线：生成式模型

这条路线选择只保留Transformer的解码器部分。其核心目标是生成，即根据一段已有的文本，预测下一个最有可能的词。这条路线上的模型，就像一个专注于续写的作家，唯一的任务就是读懂已写的上文，然后思考并写出下一个最合乎逻辑和语法的词。不需要一个独立的编码器去理解一个与生成任务无关的输入。

OpenAI的GPT系列模型是这条路线坚定的践行者。从GPT-1他们就专注于打磨Decoder-only架构，最终证明了这种架构在文本生成、对话系统、代码编写乃至遵循复杂指令等任务上拥有惊人的潜力。

Encoder-only路线：理解式模型

与GPT的思路相反，这条路线选择只保留Transformer的编码器部分。其核心目标在于理解，而不是生成，它目标在对输入的整个句子或段落有一个深刻，完整的上下文感知。这条路线上的模型，就像一个语言学的“侦探”，在拿到一句完整的，但有几个被涂黑的话，他的任务是利用完整的上下文来推断出最合理的原文。

Google推出的BERT是这条路线的开山之作。它在各种自然语言理解（NLU）任务上，如文本分类、情感分析、命名实体识别等，取得了统治级的表现，深刻影响了搜索、推荐等系统的发展。

Encoder-Decoder路线：序列到序列任务

这条路线坚持使用完整的Transformer原始架构，充分利用编码器和解码器的协同工作能力。Google的T5模型是这条路线的集大成者，它巧妙地将所有NLP任务都统一成了“文本到文本”的格式，充分发挥了完整架构的威力。Facebook的BART也是这条路线上的重要模型，它们在翻译、摘要等任务上依然是业界的首选方案之一。

3.5 小结

至此第三部分就介绍完了，我们从Transformer架构的核心开始讲起，拆解了核心组件，并展示了Encoder-Decoder架构，最后从技术视角描述了三条不一样的演进路线，接下来我们将对主流的大语言模型进行深度剖析。

4、主流大语言模型深度剖析

Transformer为大模型时代提供了统一的架构，但真正精彩的部分是各个科技巨头和研究机构如何基于这个架构，注入更多独有的特性。这不是一个单纯的参数竞赛，而是一场关于数据、算法、工程和安全的全方位博弈。在这一部分，我们会逐一剖析当前主流的大语言模型，探究它们各自的迭代历程，核心的技术优势。

4.1 OpenAI - GPT系列

在探讨当今的大语言模型版图时，OpenAI是无论如何都绕不开的起点。它不仅是技术先行者，更是范式的定义者。从GPT-1的初步探索到GPT-4o的惊艳亮相，OpenAI的发展史，几乎就是一部浓缩的大语言模型的演进史。

迭代历程

OpenAI早期的探索，通过三代GPT模型，为后续的模型奠定了坚实的基础。

GPT-1(2018) 首次实践了生成式预训练和任务微调的范式，在当时并未引起巨大轰动。
GPT-2(2019) 将模型参数扩大至15亿，展现出惊人的零样本能力。
GPT-3(2020) 是一次真正的飞跃，凭借着1750亿的庞大参数，正式提出了上下文学习的概念，用户只需给出几个示例，就能完成类似的任务，无需复杂的微调。

尽管GPT-3的模型足够强大，但只会根据概率进行续写，时常会生成无用、虚假甚至有害的内容。Instruct GPT通过引入基于人类反馈的强化学习（RLHF），将模型的行为与人类的意图进行对齐，OpenAI基于此推出了ChatGPT(2022) 产品，引爆了全球。但OpenAI并未停下脚步，GPT-4(2023) 带来了推理能力的巨大飞跃，开始接收图像作为输入，向多模态进行迈进；GPT-4o (2024) 实现了原生的、端到端的多模态交互，带来了极低延迟、更自然的交互体验，预示着人机交互的下一个方向。

技术优势

坚定不移的Decoder-only架构，专注于打磨模型的的自回归生成能力。

Scaling Law的信仰。OpenAI的研究表明，随着模型参数，数据量和计算量的指数增加，模型的性能也会可预测地、平滑地提升，当模型规模跨越某个关键的临界点后，会表现出量变引发质变的现象——“涌现能力”（Emergent Abilities）。

基于人类反馈的强化学习（RLHF）。如果说Scaling Law解决了模型的能力问题，那么RLHF则解决了模型的意图问题，这是一个经过巧妙设计的三个阶段的过程：

第一步，监督微调（Supervised Fine-Tuning） ：雇佣人类标注员，编写大量高质量的‘指令-回答’对。用这些数据对预训练好的GPT模型进行微调，让模型初步学会如何遵循指令，并模仿人类的回答风格。
第二步，训练奖励模型（Reward Model） ：让SFT后的模型对同一个指令生成不同的回答，然后人类标注员对这些回答进行排序。用这些排序数据训练出一个奖励模型，来给一个回答打分，预测人类会更喜欢哪个回答。
第三步，近端策略优化（Proximal Policy Optimization） ：这是最关键的调优环节，PPO算法的目标，就是让模型学会在最大化奖励分数的同时（生成人类更喜欢的回答），又不要与第一步的SFT后的模型偏离太远（防止模型为了高分而胡言乱语）。

4.2 Meta - LLaMA系列

如果说OpenAI定义了大语言模型开发的范式，那么Meta的LLaMA模型则改变了游戏的规则，将被少数公司闭源垄断的大模型之火带到了开源社区，LLaMA的崛起之路，是一部关于技术民主化、开放与极致优化的史诗。

迭代历程

LlaMA 1(2023.2) 的首次亮相是作为一个研究性质的模型，但在其权重意外泄露后，迅速在开源社区引爆，开发者们发现一个仅有7B的LLaMA模型，经过优化后可以在消费级硬件上运行，性能足可以媲美比它大10倍的GPT-3。
面对开源社区的热情，Meta发布了LlaMA 2(2023.7) 不仅将训练数据量提升了40%，上下文长度提升至4096，并首次开发商业许可。
LlaMA 3(2024.4) 和LlaMA 3.1(2024.7) 在使用高达15万亿Token的高质量数据训练的同时，模型参数也扩大至405B，上下文窗口也扩展至128k，其性能与业界顶尖的闭源模型几乎打平。

技术优势

基础架构的优化：通过引入前置层归一化（RMSNorm），提升训练的稳定性和效率；使用SwiGLU激活函数，函数曲线更平滑，提升模型的表达能力；在位置编码上，采用旋转位置编码（RoPE），具有更好的外推能力，可以无需微调就泛化到更长文本上。
推理效率的提升：分组注意力查询（GQA），通过让多个注意力头来共享一组K和V，在不影响模型性能前提下，大幅降低K-V Cache瓶颈，显著提升推理速度；在强化学习阶段，使用直接偏好优化（DPO），移除奖励模型，用一个单一、稳定的损失函数来替代。

4.3 Anthropic - Claude系列

在群雄逐鹿的大模型战场上，Anthropic是一个独特的存在。它是由一群来自OpenAI的核心成员创立，目标是在追求性能的基础上，将“安全、可信、负责人”的理念，注入到大语言模型中，基于此它们推出了Claude系列模型。

迭代历程

Claude1 & 2(2022) : 早期的Claude 1和2，便凭借其与众不同的对话风格——更倾向于合作、解释和拒绝不当请求——在市场中脱颖而出，同时，它们从一开始就展现出强大的长文本处理能力。
Claude 3(2023) : Claude 3的发布是Anthropic的一个里程碑，它不再是单一的模型，而是一个家族系列（Opus-旗舰，Sonnet-平衡，Haiku-轻量），在多个权威的数据集上的表现首次全面超过了GPT-4。
Claude 4(2025) : Claude 4是全球领先的编码模型，尤其是在复杂、长时间运行的任务和代理工作流中拥有持续的性能。

技术优势

宪法AI（Constitutional AI） ：Claude系列最核心的技术护城河，是其独创的宪法AI（CAI），这套方法论旨在让AI学会自我约束，而不仅仅依赖人类的监督。
长上下文和编码能力：Claude系列在长上下文处理上持续领先，尤其是在著名的“大海捞针”（Needle in a Haystack）测试中表现优异；另外在编码任务上的表现也好于其他模型，主要原因是理解代码背后的原理，而非模型撇匹配。

4.4 Google - Gemini系列

Google在大语言模型演变的这场戏剧中，扮演的角色最为特殊，既是这场戏剧的剧本作者，又是在开场之后一度沉寂在背后的“幕后巨人”。当Gemini正式登场后，这不仅仅是一个科技巨头的强势回归，更是一个真正原生的多模态时代的到来。

迭代历程

Gemini-1.0(2023.12) : 首次亮相就推出了三个版本：Ultra-性能最强，Pro-平衡性能和成本，Nano-轻量，高效的端侧模型，设计于在手机等移动设备上运行。
Gemini-1.5 Pro(2024.2) : 1.5 Pro首次将模型的上下文窗口扩展是100万Token，并成功展示在“大海捞针”测试的能力，并通过高效的MoE架构保持模型的效率。
Gemini-2.5 Pro(2025.3) : 2.5 Pro在推理能力上有非常大的突破，在响应之前，内部进行多步骤的推理和思考，这极大地提升了其处理复杂问题的能力。

技术优势

CoT架构：Gemini-2.5 Pro的核心在于内置的思考能力，类似Chain of Thought的模式，带来了显著的推理能力提升，以及通过自适应思考和思考预算等方式实现可控的思考深度，在性能和成本之间达成
原生多模态和超长上下文：Gemini-2.5 Pro的思考能力，是建立在之前系列模型强大的基础能力之上的，包括原生多模态能力（处理文本、图像、音视频等），以及超百万级Token的上下文窗口，可以对海量的信息进行分析和处理。

4.5 幻方量化 - DeepSeek系列

在由科技巨头主导LLM迭代的背景下，来自国内幻方量化的DeepSeek走出了一条令人瞩目的成功之路。一开始没有选择在通用基座模型上做追赶，而是选择了一个极具挑战性的垂直领域——代码生成，做到世界顶尖，然后带着沉淀的工程理解和架构创新，在通用LLM领域发起了一场挑战。

迭代历程

DeepSeek Coder(2023.11) : 基于高质量的代码训练集，通过代码填空的训练方式，使得模型对代码的结构和逻辑有着更深层次的理解。
DeepSeek V2(2024.5) : V2的发布是2024年开源社区最重磅的消息之一，它不仅是简单的性能提升，而是一次彻底的架构革命，凭借其创新的MLA和MoE架构，DeepSeek-V2不仅在性能上与LlaMA 3 70B等顶级开源模型打平，在推理成本上更是降低数倍。
DeepSeek R1(2025.1) : DeepSeek系列的首个推理大模型，对用户开放了思维链过程，在仅有少量标注数据的情况下，极大提升了模型的推理能力。

技术优势

多头潜在注意力（MLA） ：目的在于解决标准的自注意力机制中，在处理长文本时，K-V Cache带来的巨大内存瓶颈，它通过引入一个低维的潜在向量作为中转站，极大降低了内存占用和计算量。
混合专家机制（MoE） ：DeepSeek采用MoE架构来实现更低的计算成本，来换取更大的模型容量。它将神经网络的不同部分设计成多个专家，每次推理时只激活与任务相关的少数几个专家。
MoE和MLA组合：DeepSeek的强大之处在于将MoE和MLA进行深度融合，MLA作为效率引擎，负责解决注意力层的计算和内存瓶颈，MoE作为知识引擎，负责扩展模型的知识容量，两者结合最终实现了高性能、低成本和超长上下文的能力。

4.6 小结

这一部分我们剖析了OpenAI、Google、Meta和DeepSeek等主流大语言模型，它们各自凭借着独特的技术架构，数据和安全理念，在AI领域占据了不同的生态位。那么开发者在AI时代的背景下，该如何提升自己的能力，跟上时代的发展不被落下呢，在本文的最后会从我个人的视角来做下探讨。

5、AI时代的程序员进阶指南

当AI Coding发展得愈发成熟时，一种复杂的心情会在开发者中间蔓延，一半会为效率的提升而感到的兴奋，另一半则是因为自身价值可能被稀释而感到焦虑，这很正常。但从历史的发展看，每一场技术革命都不会消灭创造者，只会淘汰那些拒绝使用新工具的人。因此在AI时代，逐行编写代码的熟练度不再是程序员的优势，转而是定义问题、设计系统、利用AI能力推动更完美地落地，才是我们的核心价值。

拥抱新的编程哲学

拥抱新的编程哲学，意味着在思维上的一次深刻的转变。我们必须从追求确定性的编程模式，转向通过引导、验证和约束AI来生成的概率性模式，这一转变将我们的角色从亲力亲为的“执行者”，提升为可以编排多个AI能力的“指挥家”。当AI逐渐可以解决“怎么做”的技术实现后，我们可以把精力逐渐放在找寻问题，定义“为什么做”的过程，深刻洞察用户、进行系统设计和解决复杂的业务问题。

构建AI技术栈

构建每个人自己的AI技术栈，可以从三个阶段来展开：

第一阶段利用AI工具来增强生产力，通过Prompt(Context) Engineering来让AI成为你的得力助手，可以借助Cursor，Trae等AI IDE工具。
第二阶段，将AI能力集成到业务中，创造新的产品价值，例如通过RAG来集成业务知识库，这时需要学习AI的开发框架，例如LangChain、LlamaIndex等。
第三阶段解决通用模型无法满足的特定领域的问题，这时可能需要基于特定的数据集来做模型微调，在推理速度、成本和多模型路由等方面的工程问题等。

行动起来

不要犹豫，现在就开始！最好的学习方式就是实践，可以先从构建一个对自己有用的小工具开始，例如一个帮助你总结文章的Bot，一个基于RAG可以回答你团队知识库文档内容的问答Bot等，然后再逐步地去学习其中的每个细节。另外定期关注AI领域的进展也很重要，例如各个LLM的官方博客，优质社区模块（例如Hugging Face等）。

一部简明扼要的LLM发展史

1、引言

2、Transformer诞生前的探索

2.1 统计语言模型（n-gram）

2.2 循环神经网络（RNN）

2.3 长短期记忆网络（LSTM）

2.4 难以逾越的瓶颈

3、Transformer架构的革命

3.1 自注意力机制

3.2 关键组件

3.3 Encoder-Decoder架构

3.4 技术路线的演进

3.5 小结

4、主流大语言模型深度剖析

4.1 OpenAI - GPT系列

4.2 Meta - LLaMA系列

4.3 Anthropic - Claude系列

4.4 Google - Gemini系列

4.5 幻方量化 - DeepSeek系列

4.6 小结

5、AI时代的程序员进阶指南

6、Reference