一、本堂课重点内容
1.NLP 模型训练的四个阶段:纯监督学习、预训练+微调(Finetune)、小样本学习(In-context Learning)、强化学习(RLHF)。
2.ChatGPT 的训练核心:基于大规模语言模型预训练,结合 In-context Learning 和 RLHF 技术,增强模型的多任务处理能力和对自然语言指令的适应性。
3.In-context Learning 特点:通过上下文引导,模型在不需要额外微调的情况下完成任务。
4.小样本学习模式:包含 Zero-shot、One-shot、Few-shot,提供不同程度的任务示范来指导模型完成新任务。
5.当前挑战:小模型效果有限,超大规模神经网络是实现高级人工智能的关键。
二、详细知识点介绍
- 纯监督学习
定义:通过标注数据完成特定任务。
数据结构:通常为【文本,标注信息】,如文本分类、实体识别、机器翻译等。
局限性: 依赖大量标注数据,制约模型扩展。 模型仅针对单一任务,无法泛化处理多个任务。 泛化能力差,对未见过的数据表现不佳。
- 预训练+微调(Finetune)
核心思想:在大规模未标注数据上预训练语言模型,再通过少量标注数据微调,适应具体任务。
优点: 模型预先具备语言能力,微调速度更快,效果更好。 减少标注数据需求,提升泛化能力。
类比:训练 AI 就像教育孩子——有“基础知识”(预训练)的孩子学习新内容更快。
- 小样本学习(In-context Learning)
原理:通过上下文信息提示模型任务内容,不需要额外训练即可完成任务。
方法: Zero-shot:无示范,直接完成任务。 One-shot:提供一个示范样例。 Few-shot:提供多个示范样例,帮助模型理解任务。
数据组织方式:在预训练阶段构建多种任务场景,让模型学会处理多任务输入。
优点:扩展了模型的任务适应性。
局限性: 输入形式较死板,不适应灵活自然语言指令。 对小规模模型效果不佳,且容易产生错误或偏见。
- Prompt 学习
定义:通过自然语言编写的简短指令指导模型完成任务。
与 Few-shot 的区别: Few-shot 提供具体示范样例。 Prompt 通过语言描述明确任务目标。
优点:结合自然语言指令,提升模型对任务的理解。
- 超大规模模型的重要性
小样本学习和 In-context Learning 仅在超大规模模型(如 GPT-3,1750 亿参数)上表现良好,小规模模型效果有限。
三、课后个人总结
进化之路:NLP 模型训练策略经历了从纯监督学习到预训练+微调,再到小样本学习和 RLHF 的演进,每一次创新都极大地扩展了模型能力。
技术核心:ChatGPT 的成功得益于大规模预训练和对人类指令的精准响应,这种基于上下文的任务完成方式革命性地提升了模型的泛化能力。
实践启发:小样本学习的 Few-shot 和 Prompt 方法提供了快速适应新任务的路径,但依然依赖超大规模模型的强大表达能力。
未来展望:NLP 的发展不仅需要更高效的模型训练策略,还需解决模型生成内容的可靠性和公平性问题。