大白话系列：什么是预训练模型？

2025-03-22 90 阅读4分钟

你可以把预训练模型想象成一个“学霸”，在正式考试前，它已经刷了一大堆题（超大量的文本数据），掌握了很多知识（语言规律、语法等）。然后，我们可以让这个学霸针对某个特定科目再进行强化训练，比如让它专门去学数学、历史或英语，这样它就能更好地应对这些具体的考试（任务）。

整个过程分为 两个阶段：

预训练阶段（打基础）

让模型在超大规模的文本上进行训练，通常采用无监督或弱监督的方法。
目标是让模型学会语言的基本规律，比如单词的关系、语法规则等。
训练完后，模型就变成一个“通才”，但它对具体任务的理解还不够深入。

微调阶段（定制化训练）
- 这个阶段，模型会被针对某个特定任务（下游任务）进行训练，比如：
  - 文本分类（判断文章是正面评价还是负面评价）
  - 机器翻译（让它翻译外语）
  - 阅读理解（让它回答问题）
- 由于模型已经学会了语言知识，所以只需要少量数据就能训练出不错的效果，相当于让学霸考前突击某个科目。

举个例子：BERT 预训练模型

BERT 是一个典型的预训练模型，它在海量数据上进行学习，主要做了两件事：

MLM（完形填空）：一句话挖个坑（遮住一个词），让模型猜这个词是什么，比如：
- 输入：我今天___开心。
- 目标：让模型填上正确的词（比如“很”）。
NSP（句子排序）：给它两句话，让它判断这两句本来是不是连着的。

训练完之后，我们可以用 BERT 来做文本分类、阅读理解、翻译等任务，通过微调，它的表现会更好。

预训练模型 = 先打好基础 + 再针对具体任务微调，这样比从零开始训练更高效、更强大！ 🚀

有哪些预训练模型？

目前市面上有很多知名的预训练模型，主要分为 NLP（自然语言处理）、CV（计算机视觉）和多模态（同时处理文本、图像等）几大类。

NLP（自然语言处理）预训练模型：

1. BERT 系列（双向编码，理解能力强）

BERT（2018）：谷歌推出的双向 Transformer 模型，擅长文本理解。
RoBERTa（2019）：BERT 的改进版，训练更充分，效果更好。
ALBERT（2019）：参数更少，占用显存更低，适合大规模应用。

2. GPT 系列（单向生成，擅长写作）

GPT-2（2019）：OpenAI 推出，能生成连贯的长文本。
GPT-3（2020）：1750 亿参数，能力更强，能写文章、代码、对话。
GPT-4（2023）：多模态能力（能看图），更聪明更强大。

3. Chat 系列（对话优化）

ChatGPT（2022-2023）：基于 GPT-3.5 / GPT-4，强化对话能力，能回答各种问题。
Claude（2023）：Anthropic 推出的对话 AI，安全性更高。
Gemini（2023-2024）：谷歌 DeepMind 推出的对标 GPT-4 的大模型。

CV（计算机视觉）预训练模型:

这些模型主要用于图像分类、目标检测、图像生成等任务。

1. 经典 CNN 模型

ResNet（2015）：微软提出，使用“残差连接”解决深度学习难题，提升图像分类能力。
EfficientNet（2019）：谷歌开发，计算效率高，性能强。

2. 视觉 Transformer（ViT）模型

ViT（2020）：谷歌提出，首次把 Transformer 用到 CV 任务上，效果超越 CNN。
Swin Transformer（2021）：微软推出，提升了 ViT 在目标检测等任务上的表现。

3. 图像生成模型

DALL·E 2（2022）：OpenAI 开发，能根据文本描述生成高清图片。
Stable Diffusion（2022）：开源的图像生成模型，可自由调整生成风格。

多模态预训练模型（文本 + 图像 + 语音）

这些模型能同时处理文字、图片、视频等不同类型的数据。

1. CLIP（2021）

由 OpenAI 开发，能让计算机理解图像和文本的关系，比如用文字搜索图片。

2. Flamingo（2022）

DeepMind 推出，能根据图片回答问题，适用于多模态任务。

3. GPT-4V（2023）

OpenAI 的 GPT-4 加强了视觉理解能力，能看图并回答问题。