大模型技术演进编年史(2017–2026)

14 阅读2分钟

大模型技术演进编年史(2017–2026)

2017 — Transformer 诞生(根基)

  • 论文:《Attention Is All You Need》
  • 核心:自注意力机制(Self-Attention)
  • 意义:彻底取代 RNN/LSTM,成为所有大模型的底层架构

2018 — GPT-1、BERT(预训练时代开始)

  • GPT-1:第一个生成式预训练模型
  • BERT:理解式预训练模型
  • 意义:证明 “预训练 + 微调” 是 NLP 最优路线。

2019 — GPT-2(零样本能力初现)

  • 模型变大,不用微调也能做任务
  • 意义:证明规模即正义,为 GPT-3 铺路。

2020 — GPT-3(里程碑)

  • 1750 亿参数
  • 核心能力:Few-shot / Zero-shot
  • 意义:第一次让世界看到通用语言模型的潜力。

2021 — 早期 RAG 提出(检索增强生成)

  • RAG:Retrieval-Augmented Generation
  • 作用:让模型去外部查资料再回答,解决幻觉、知识过时。
  • 地位:企业落地最实用技术之一。

2022.11 — ChatGPT 发布(全民 AI 时代)

  • 基于 GPT-3.5 + 人类反馈强化学习(RLHF
  • 核心突破:对话流畅、遵循指令、安全可控。
  • 意义:直接引爆 Prompt 工程、Agent、企业大模型应用

2022—2023 — Prompt Engineering 爆发(提示词工程)

  • 核心技术:

    • 零样本 / 少样本
    • 思维链 CoT
    • 角色设定、格式约束、自校正
  • 意义:不训练模型,只靠文字指令就能让模型变强。


2023 — Rule 工程 / Rules Engine(规则工程)

  • 作用:用硬规则约束模型行为:禁止回答、格式校验、敏感词拦截、业务逻辑判断。
  • 定位:企业系统比 Prompt 更稳定、更可控

2023 — Skills / Tools(工具调用)

  • 模型学会调用外部工具:搜索、计算器、代码解释器、API、数据库。
  • 代表:ChatGPT Plugins、GPT-4 Tools
  • 意义:从 “语言模型” 变成 “能做事的系统”。

2023 — LLM Agent(智能体)爆发

  • 定义:大模型 + 记忆 + 规划 + 工具调用 + 反思
  • 经典框架:ReAct、AutoGPT、GPT-Researcher
  • 核心能力:自主完成复杂任务,而不是只回答单轮问题。
  • LangChain 等 Agent 框架出现

2024 — MCP(Model Control Plane / 模型控制平面)流行

  • 定位:企业级 Agent 调度中枢
  • 功能:路由、调度、权限、监控、日志、限流、安全、多模型统一入口。
  • 意义:让 Agent 从 Demo 变成可上线的生产系统
  • N8n / Dify 等可配置化的 Agent 工具

2025-2026

  • ClawBot(OpenClaw) 龙虾机器人智能体爆发

极简时间线(背诵版)

  1. 2017 Transformer
  2. 2018 GPT-1 / BERT
  3. 2019 GPT-2
  4. 2020 GPT-3
  5. 2021 RAG
  6. 2022 ChatGPT → Prompt 工程爆发
  7. 2023 Rules 工程 → Skills/Tools → Agent
  8. 2024 MCP(企业级 Agent 调度)