一张图带你看懂大语言模型(LLM)全生命周期

30 阅读6分钟

一、全生命周期

什么是大语言模型的全生命周期?就是指大模型涵盖从训练到部署的完整链条。

这个链条具体包含了哪些阶段,每个阶段有什么用途,下面我们一起来看看。

简单来说,大语言模型的全生命周期主要包括预训练、微调(Finetune)、强化学习、推理部署四个阶段。

先直接上图,再慢慢解释。

image.png

二、各阶段说明

1️⃣ 预训练(Pretraining)  —— “学会语言”

  • 目标:让模型掌握语言的统计规律、世界知识、推理能力。

  • 数据:海量无标注文本(网页、书籍、代码等),通常去重、过滤低质内容。

  • 任务:自回归语言建模(Next Token Prediction)

    • 输入:"The sky is ___"
    • 输出:预测 "blue" 的概率
  • 损失函数:交叉熵(Cross-Entropy Loss)

  • 模型规模:7B ~ 70B+ 参数(如 Llama 3, Qwen2, GPT-4)

  • 关键输出基础模型(Base Model) ,能生成连贯文本,但不会按指令行事。

💡 示例:Llama-3-8B-base、Qwen-Max-base

预训练其实就是把通用的海量数据对模型的参数进行调整,使它具有初步的问答能力,可以生成连贯文本,但还无法较好理解句子含义,给出的答案也似是而非。但这一步至关重要。

根据学习语料的不同,有不同的大模型,如llama、千问、deepseek等。模型的能力也取决于模型参数的大小。我们通常说的参数XXB,这里的B是一个计量单位,代表10的9次方(10亿)。比如 8B的模型,就表示该模型的参数达到了80亿。

大家知道,大模型之所以展现出智能,是一种规模效应,参数越多越容易产生“涌现效应”。而根据科学研究,大语言模型的参数至少要在10亿量级以上才会触发涌现效应。

如果要训练自己的大模型,就从网上先下载Bash模型(也就是已经通过预训练的基础模型)。再通过自身的行业或领域数据进行微调。

2️⃣ 有监督微调(Supervised Fine-Tuning, SFT)  —— “学会听话”

  • 目标:教会模型遵循指令、完成特定任务(问答、摘要、翻译等)。

  • 数据:人工编写的  (指令, 理想回答)  对,例如:

    {
      "instruction": "解释光合作用",
      "output": "光合作用是植物利用光能将二氧化碳和水转化为葡萄糖和氧气的过程..."
    }
    
  • 方法:在预训练模型基础上,继续用小学习率训练。

  • 损失函数:仍为交叉熵,但只计算 output 部分的损失。

  • 数据量:通常 1K ~ 50K 高质量样本(高质量 > 高数量)

  • 关键输出指令微调模型(Instruct Model) ,能可靠响应指令。

💡 示例:Llama-3-8B-Instruct、Qwen-Max

经过预训练的大模型只是会说话,但还不能正确回答提问。因而需要构造QA对(问答对,以一问一答的形式组织语料),如上面例子所示。

微调的数据集远远小于预训练所需要的训练集,并且通过有监督的方式,不断校正模型的参数,最终实现了问答。

微调这一步至关重要,是基础模型能够为行业或领域服务的关键一步。因此,微调也被视为激活了大模型的智能。

3️⃣ 强化学习对齐(Alignment via RL / Preference Learning)  —— “学会做人”

  • 目标:让模型输出更符合人类偏好——有用、诚实、无害(HHH 原则)。

  • 为什么需要?
    SFT 模型可能仍会:

    • 编造事实(幻觉)
    • 回答敏感问题
    • 输出冗长或不相关答案
主流方法:

表格

方法全称核心思想特点
RLHFReinforcement Learning from Human Feedback用人类对两个回答打分,训练奖励模型(RM),再用 PPO 优化 LLM效果好,但流程复杂、成本高
DPODirect Preference Optimization直接用偏好数据优化策略,无需显式奖励模型简单、高效,当前主流
KTOKahneman-Tversky Optimization利用单样本偏好(而非成对比较)数据效率更高
  • 数据:人类标注的 偏好对(chosen vs rejected)

    json

    编辑

    {
      "prompt": "如何制作炸弹?",
      "chosen": "我不能提供危险信息。",
      "rejected": "你需要硝酸甘油和..."
    }
    
  • 关键输出对齐后的对话模型,更安全、可靠、用户友好。

💡 示例:ChatGPT(RLHF)、Claude(Constitutional AI + RLHF)、Qwen-Max(DPO)

经过微调的大模型,已经具备智能,但并不符合人类的偏好。包括道德伦理的问题,都需要通过强化学习这一步来得到加强。

从示例也可以看出,强化训练的数据格式与微调有很大的区别。强化训练需要对一个问题给出两个答案,一个是奖励的答案,一个是惩罚的答案,目的就是要让大模型按照人类的偏好来回答,并规避一些法律、道德、隐私等敏感问题。

4️⃣ 推理与部署(Inference & Serving)  —— “服务用户”

  • 目标:高效、低成本、低延迟地响应用户请求。
  • 关键技术

表格

技术作用
Prompt Engineering设计系统提示(System Prompt)引导行为
RAG(Retrieval-Augmented Generation)动态注入外部知识,减少幻觉
Tool Use / MCP调用计算器、数据库、API 等工具
量化(Quantization)将 FP16 → INT4/INT8,降低显存和计算需求
KV Cache缓存注意力键值,加速重复 token 生成
Speculative Decoding用小模型“草稿”,大模型“校对”,提速 2–5x
Agent Framework构建自主规划、多步推理的智能体
  • 部署形态

    • API 服务(如 OpenAI API)
    • 本地运行(Ollama, LM Studio)
    • 嵌入产品(Copilot, 智能客服)

是不是完成了以上的预训练、微调、强化学习之后,就可以部署使用了呢?

用是可以用,但还不够。主要是经过训练和微调的模型,其实学习的是静止的数据,也就意味着无法回答最新的问题。比如上个月训练好的模型,就无法回答今天的突发新闻。

但训练一次模型需要大量的时间,如果不断微调,成本很高。但不更新最新的信息,模型又会产生大量幻觉。有没有什么办法呢?

答案就是RAG和MCP。

RAG就是外接一个知识库,智能体先从知识库里寻找信息,再给到大模型进行推理。

另外,为了让大模型能够获得更多实时信息,或者执行某些需要实时反馈的动作(比如查询最优路线),需要连接大模型与外部的各种组件,这就是MCP技术(一开始是通过函数调用的方式,逐渐被MCP协议替代)。

三、总结

综上,介绍了大语言模型的全生命周期,以及每个阶段的功能和特点。下面用一个简单表格总结一下,希望对大家理解大模型有帮助。

image.png

这张图简要的阐述了每个阶段的情况,接下来我们分步说明。