大模型技术演进编年史(2017–2026)
2017 — Transformer 诞生(根基)
- 论文:《Attention Is All You Need》
- 核心:自注意力机制(Self-Attention)
- 意义:彻底取代 RNN/LSTM,成为所有大模型的底层架构。
2018 — GPT-1、BERT(预训练时代开始)
- GPT-1:第一个生成式预训练模型
- BERT:理解式预训练模型
- 意义:证明 “预训练 + 微调” 是 NLP 最优路线。
2019 — GPT-2(零样本能力初现)
- 模型变大,不用微调也能做任务
- 意义:证明规模即正义,为 GPT-3 铺路。
2020 — GPT-3(里程碑)
- 1750 亿参数
- 核心能力:Few-shot / Zero-shot
- 意义:第一次让世界看到通用语言模型的潜力。
2021 — 早期 RAG 提出(检索增强生成)
- RAG:Retrieval-Augmented Generation
- 作用:让模型去外部查资料再回答,解决幻觉、知识过时。
- 地位:企业落地最实用技术之一。
2022.11 — ChatGPT 发布(全民 AI 时代)
- 基于 GPT-3.5 + 人类反馈强化学习(RLHF)
- 核心突破:对话流畅、遵循指令、安全可控。
- 意义:直接引爆 Prompt 工程、Agent、企业大模型应用。
2022—2023 — Prompt Engineering 爆发(提示词工程)
-
核心技术:
- 零样本 / 少样本
- 思维链 CoT
- 角色设定、格式约束、自校正
-
意义:不训练模型,只靠文字指令就能让模型变强。
2023 — Rule 工程 / Rules Engine(规则工程)
- 作用:用硬规则约束模型行为:禁止回答、格式校验、敏感词拦截、业务逻辑判断。
- 定位:企业系统比 Prompt 更稳定、更可控。
2023 — Skills / Tools(工具调用)
- 模型学会调用外部工具:搜索、计算器、代码解释器、API、数据库。
- 代表:ChatGPT Plugins、GPT-4 Tools
- 意义:从 “语言模型” 变成 “能做事的系统”。
2023 — LLM Agent(智能体)爆发
- 定义:大模型 + 记忆 + 规划 + 工具调用 + 反思
- 经典框架:ReAct、AutoGPT、GPT-Researcher
- 核心能力:自主完成复杂任务,而不是只回答单轮问题。
- LangChain 等 Agent 框架出现
2024 — MCP(Model Control Plane / 模型控制平面)流行
- 定位:企业级 Agent 调度中枢
- 功能:路由、调度、权限、监控、日志、限流、安全、多模型统一入口。
- 意义:让 Agent 从 Demo 变成可上线的生产系统。
- N8n / Dify 等可配置化的 Agent 工具
2025-2026
- ClawBot(OpenClaw) 龙虾机器人智能体爆发
极简时间线(背诵版)
- 2017 Transformer
- 2018 GPT-1 / BERT
- 2019 GPT-2
- 2020 GPT-3
- 2021 RAG
- 2022 ChatGPT → Prompt 工程爆发
- 2023 Rules 工程 → Skills/Tools → Agent
- 2024 MCP(企业级 Agent 调度)