参考资源
COS 597G: Understanding Large Language Models
Large language model LLM
现阶段核心依然是语言
Why LLM?
通用人工智能
一个模型不仅仅局限于一个特定的任务,而是可以处理各种任务
对于学术研究?
- 一些小模型的研究不再有意义
-
- 对每个任务设计独立的模型人力开销大,训练成本高;但是这些一个通用的大模型都可以做,并且效果更好。
- AI相关方向边界模糊
-
- 大模型既可以做cv,也可以nlp,还可以rl
ChatGPT
模型+数据+算力+软件
模型
Transformer
模型架构基本大同小异,壁垒是数据和算力
数据
无法准确估计训练数据量
从雇佣的数据标注者,数据量和质量都很高
算力
数万个 A100 GPU
从头训练大模型需要的算力是非常惊人的,但是我们可以基于有些已经开源的大模型
软件
标志性的大语言模型
GLM
llaMA2(学界最为认可)
最新code llama2
大语言模型架构
祖先都是Transformer
Decoder-Only架构代表:GPT
沿用了BERT的Fine-tuning
先Pre-training 再Fine-tuning是否有不足?
最终有大量的模型拷贝,相互不同
- Fine-tuning导致模型过拟合了具体的任务数据分布(Overfit)
解决方法:
- Scaling up :增加模型参数,实现顿悟(涌现力)
- in-Context learning 提示学习
-
- 在预训练阶段就学习多种任务能力,后续在推理时通过提示词让模型想起(激发)对应任务的能力
- 多任务能力在预训练就完成了训练
ChatGPT真正的核心:RL PART
未来方向
多模态大模型:从语言到视觉
统一大模型
- 作为多模态学习中的两个典型模态,nlp和cv的大模型在架构上还无法统一
-
- NLP:基于语言模型
- CV:Vision Transformer(ViT)
大模型幻觉
大模型胡说八道
安全
大模型的训练数据,我们在使用的时候可以通过引导让他把训练数据吐出来
训练数据涉及到安全隐私问题