你可以把预训练模型想象成一个“学霸”,在正式考试前,它已经刷了一大堆题(超大量的文本数据),掌握了很多知识(语言规律、语法等)。然后,我们可以让这个学霸针对某个特定科目再进行强化训练,比如让它专门去学数学、历史或英语,这样它就能更好地应对这些具体的考试(任务)。
整个过程分为 两个阶段:
- 预训练阶段(打基础)
- 让模型在超大规模的文本上进行训练,通常采用无监督或弱监督的方法。
- 目标是让模型学会语言的基本规律,比如单词的关系、语法规则等。
- 训练完后,模型就变成一个“通才”,但它对具体任务的理解还不够深入。
-
微调阶段(定制化训练)
-
这个阶段,模型会被针对某个特定任务(下游任务)进行训练,比如:
- 文本分类(判断文章是正面评价还是负面评价)
- 机器翻译(让它翻译外语)
- 阅读理解(让它回答问题)
-
由于模型已经学会了语言知识,所以只需要少量数据就能训练出不错的效果,相当于让学霸考前突击某个科目。
-
举个例子:BERT 预训练模型
BERT 是一个典型的预训练模型,它在海量数据上进行学习,主要做了两件事:
- MLM(完形填空):一句话挖个坑(遮住一个词),让模型猜这个词是什么,比如:
- 输入:我今天___开心。
- 目标:让模型填上正确的词(比如“很”)。
- NSP(句子排序):给它两句话,让它判断这两句本来是不是连着的。
训练完之后,我们可以用 BERT 来做文本分类、阅读理解、翻译等任务,通过微调,它的表现会更好。
预训练模型 = 先打好基础 + 再针对具体任务微调,这样比从零开始训练更高效、更强大! 🚀
有哪些预训练模型?
目前市面上有很多知名的预训练模型,主要分为 NLP(自然语言处理)、CV(计算机视觉)和多模态(同时处理文本、图像等)几大类。
NLP(自然语言处理)预训练模型:
1. BERT 系列(双向编码,理解能力强)
-
BERT(2018):谷歌推出的双向 Transformer 模型,擅长文本理解。
-
RoBERTa(2019):BERT 的改进版,训练更充分,效果更好。
-
ALBERT(2019):参数更少,占用显存更低,适合大规模应用。
2. GPT 系列(单向生成,擅长写作)
-
GPT-2(2019):OpenAI 推出,能生成连贯的长文本。
-
GPT-3(2020):1750 亿参数,能力更强,能写文章、代码、对话。
-
GPT-4(2023):多模态能力(能看图),更聪明更强大。
3. Chat 系列(对话优化)
-
ChatGPT(2022-2023):基于 GPT-3.5 / GPT-4,强化对话能力,能回答各种问题。
-
Claude(2023):Anthropic 推出的对话 AI,安全性更高。
-
Gemini(2023-2024):谷歌 DeepMind 推出的对标 GPT-4 的大模型。
CV(计算机视觉)预训练模型:
这些模型主要用于图像分类、目标检测、图像生成等任务。
1. 经典 CNN 模型
- ResNet(2015):微软提出,使用“残差连接”解决深度学习难题,提升图像分类能力。
- EfficientNet(2019):谷歌开发,计算效率高,性能强。
2. 视觉 Transformer(ViT)模型
- ViT(2020):谷歌提出,首次把 Transformer 用到 CV 任务上,效果超越 CNN。
- Swin Transformer(2021):微软推出,提升了 ViT 在目标检测等任务上的表现。
3. 图像生成模型
-
DALL·E 2(2022):OpenAI 开发,能根据文本描述生成高清图片。
-
Stable Diffusion(2022):开源的图像生成模型,可自由调整生成风格。
多模态预训练模型(文本 + 图像 + 语音)
这些模型能同时处理文字、图片、视频等不同类型的数据。
1. CLIP(2021)
- 由 OpenAI 开发,能让计算机理解图像和文本的关系,比如用文字搜索图片。
2. Flamingo(2022)
- DeepMind 推出,能根据图片回答问题,适用于多模态任务。
3. GPT-4V(2023)
- OpenAI 的 GPT-4 加强了视觉理解能力,能看图并回答问题。