AI浪潮下我们当何去何从--从演进范式中寻觅机遇(一)

7 阅读6分钟

随着 LLM 从 GPT-1 进化到如今 Agent 智能体时代,我们往往容易陷入一个误区:AI 应用效果的上限完全取决于模型能力,我们工程师能做的只是“调用”和“等待”。然而,在本人回顾LLM的发展史,发现 “工程化” 一词始终扮演者点石成金的角色。无论是通过思维链(CoT)激发模型的深度推理,还是利用 ReAct 框架让模型“大展身手”,亦或是通过架构设计来解决幻觉与记忆问题,这些突破本质上都是工程设计对模型潜力的发掘。

因此,与其被动等待更强的模型,不如主动理解:我们对场景的工程化设计,才是激发模型潜力的关键。本系列将回顾LLM演进史,首篇我们从一切的开端——基座模型的范式确立说起。

第一阶段:基座模型的范式确立(The Foundation)

1. GPT-1:确立“预训练-微调”的工业范式 (解决“怎么造”的问题) 2018

论文:《Improving Language Understanding by Generative Pre-Training》 (2018)
  • 核心思想:先预训练,后微调(Pre-training + Fine-tuning)

    在 GPT-1 之前,做不同的任务通常需要设计不同的模型结构(翻译模型一种,分类模型一种等等)。而 GPT-1 提出:能不能用海量无标注文本训练(Pre-training)一个“通用的语言模型”,然后针对特定任务只需要微调(Fine-tuning)一下?

  • 基本原理:

    • 架构: 12层 Transformer Decoder

    • 机制: 去掉微调的步骤,直接给模型输入提示(Prompt),看它能不能直接输出答案。

      • 摘要任务输入:“【长文章】TL;DR:” => 模型预测摘要
    • 影响:

      • 证明了 大力出奇迹:单纯增加模型参数和数据量,就能显著提升性能。
      • 展示了模型在没有见过某个任务的数据时,也能凭借通用知识解决问题的潜力。
      • 证明了 Transformer(自注意力模型)结构在长文本依赖上优于 RNN / LSTM(循环神经网络)
    • 第一阶段(无监督预训练):在 BooksCorpus (书籍数据)上训练模型预测下一个词,让模型学会语法,句法和世界知识。

    • 第二阶段(有监督微调):在特定任务的有标注数据上,调整模型参数,使其适应特定任务。

  • 影响:

    • 结束了一种任务一个模型的时代
    • 确立了 预训练 + 微调 这一统治NLP(Natural Language Processing,自然语言处理)领域多年的工业标准范式

GPT-2:走向通用与零样本

论文:《Language Models are Unsupervised Mutitask Learners》 (2019)
  • 核心思想:零样本学习(Zero-shot Learning)

    OpenAI 发现,只要模型够大,数据够多,模型似乎不需要微调就能做任务。他们提出了所有的NLP任务本质上都是预测下一个词的理念。

  • 基本原理:

    • 架构: 结构没变,但规模扩大了 10 倍

    • 机制: 去掉微调的步骤,直接给模型输入提示(Prompt),看它能不能直接输出答案。

      • 摘要任务输入:“【长文章】TL;DR:” => 模型预测摘要
    • 影响:

      • 证明了 大力出奇迹:单纯增加模型参数和数据量,就能显著提升性能。
      • 展示了模型在没有见过某个任务的数据时,也能凭借通用知识解决问题的潜力。

3.GPT-3:暴力美学的涌现

论文:《Language Models are Few-Shot Learners》 (2020)
  • 核心思想:上下文学习(In-context Learning / Few-Shot)

    GPT-3彻底放弃了“微调模型参数”。它的核心理念是:不要改动模型参数,而是通过“提示工程”让模型学会任务。给它几个例子(Few-Shot),他就能瞬间学会规律

  • 基本原理:

    • 架构:依然是 Transformer Decoder, 但规模扩大了 100 倍

    • 数据:几乎吞噬了整个互联网

    • 机制

      • 不更新权重:模型就像一个拥有过目不忘能力的博学者,你只需要在提问时给它看几个例子(In-context Learning),它就能瞬间模仿并举一反三,而它的‘大脑’(模型参数)在你使用过程中是固定不变的。
      • Prompt引导: 用户在输入中提供几个“问题-答案”的例子,模型通过读取上下文(In-context),利用其强大的模式匹配能力生成后续内容
    • 影响:

      • 能力的“涌现”(Emergence):当参数量跨过某个临界点(如100B),模型性能并非线性增长,而是像智力被突然点亮一样,涌现出小模型完全不具备的能力,如复杂推理、代码生成等。这证明了规模本身可以引发质变
      • Prompt Engineering 的诞生:催生了全新的交互方式,人们开始研究如何用自然语言指挥模型

4.GPT-3.5(InstructGPT):通过 RLHF 与人类意图对齐

论文:《Training language models to follow instruction with human feedback》 (2022)

GPT-3 虽然强大,但它本质上只是一个“文本补全机”。你给它一个问题,它可能会补全另一个问题,或者生成一些不相关的废话,因为它只是在预测下一个词,并不理解用户的真实诉求。

所以 GPT-3.5 的核心思想可以总结为两个字:对齐(Alignment)

即:将模型的优化目标,从“预测下一个词的概率最大化”,调整为“符合人类意图和价值观”。

为了实现这一点,GPT-3.5 (InstructGPT)采用了 RLHF 三阶段训练法:

  • 第一阶段:有监督微调(SFT - Supervised Fine-Tuning)
    • 做法:雇佣人类标注员,针对各种问题写出高质量的“标准答案”
    • 目的:让模型先学会“怎么像人一样回答问题”,学会对话的格式和基本逻辑。这是教会模型“依葫芦画瓢”
  • 第二阶段:训练奖励模型 (RM - Reward Model)
    • 做法:让模型针对同一个问题生成多个不同的回答(A, B, C, D)。然后人类标注员对这些回答进行排名,而不是直接打分
    • 目的:训练一个新的小模型(奖励模型),让它学习人类的偏好。这个奖励模型的作用是充当“判卷老师”,它能自动判断哪个回答更好。
  • 第三阶段:近端策略优化 (PPO - Proximal Policy Optimization)
    • 做法:这是一个强化学习的过程。让主模型生成回答,奖励模型给出分数。如果分数高,就通过 PPO 算法更新参数,鼓励模型多生成这类回答;反之则惩罚。
    • 目的:利用机器(奖励模型)来大规模训练机器(主模型),从而实现大模型的自我进化,使其回答越来越符合人类偏好。

这是本系列的第一篇,主要回顾基座模型的‘诞生记’。接下来我们将深入探讨思维链、自洽性等工程如何让模型学会推理