大模型技术演进编年史（2017–2026）

2026-03-12 14 阅读2分钟

大模型技术演进编年史（2017–2026）

2017 — Transformer 诞生（根基）

论文：《Attention Is All You Need》
核心：自注意力机制（Self-Attention）
意义：彻底取代 RNN/LSTM，成为所有大模型的底层架构。

2018 — GPT-1、BERT（预训练时代开始）

GPT-1：第一个生成式预训练模型
BERT：理解式预训练模型
意义：证明 “预训练 + 微调” 是 NLP 最优路线。

2019 — GPT-2（零样本能力初现）

模型变大，不用微调也能做任务
意义：证明规模即正义，为 GPT-3 铺路。

2020 — GPT-3（里程碑）

1750 亿参数
核心能力：Few-shot / Zero-shot
意义：第一次让世界看到通用语言模型的潜力。

2021 — 早期 RAG 提出（检索增强生成）

RAG：Retrieval-Augmented Generation
作用：让模型去外部查资料再回答，解决幻觉、知识过时。
地位：企业落地最实用技术之一。

2022.11 — ChatGPT 发布（全民 AI 时代）

基于 GPT-3.5 + 人类反馈强化学习（RLHF）
核心突破：对话流畅、遵循指令、安全可控。
意义：直接引爆 Prompt 工程、Agent、企业大模型应用。

2022—2023 — Prompt Engineering 爆发（提示词工程）

核心技术：
- 零样本 / 少样本
- 思维链 CoT
- 角色设定、格式约束、自校正
意义：不训练模型，只靠文字指令就能让模型变强。

2023 — Rule 工程 / Rules Engine（规则工程）

作用：用硬规则约束模型行为：禁止回答、格式校验、敏感词拦截、业务逻辑判断。
定位：企业系统比 Prompt 更稳定、更可控。

2023 — Skills / Tools（工具调用）

模型学会调用外部工具：搜索、计算器、代码解释器、API、数据库。
代表：ChatGPT Plugins、GPT-4 Tools
意义：从 “语言模型” 变成 “能做事的系统”。

2023 — LLM Agent（智能体）爆发

定义：大模型 + 记忆 + 规划 + 工具调用 + 反思
经典框架：ReAct、AutoGPT、GPT-Researcher
核心能力：自主完成复杂任务，而不是只回答单轮问题。
LangChain 等 Agent 框架出现

2024 — MCP（Model Control Plane / 模型控制平面）流行

定位：企业级 Agent 调度中枢
功能：路由、调度、权限、监控、日志、限流、安全、多模型统一入口。
意义：让 Agent 从 Demo 变成可上线的生产系统。
N8n / Dify 等可配置化的 Agent 工具

2025-2026

ClawBot(OpenClaw) 龙虾机器人智能体爆发

极简时间线（背诵版）

2017 Transformer
2018 GPT-1 / BERT
2019 GPT-2
2020 GPT-3
2021 RAG
2022 ChatGPT → Prompt 工程爆发
2023 Rules 工程 → Skills/Tools → Agent
2024 MCP（企业级 Agent 调度）