青训营笔记：LLM简易入门参考资源 COS 597G: Understanding Large Language Mod

参考资源

COS 597G: Understanding Large Language Models

intro-llm.github.io/

Large language model LLM

现阶段核心依然是语言

Why LLM?

通用人工智能

一个模型不仅仅局限于一个特定的任务，而是可以处理各种任务

对于学术研究？

一些小模型的研究不再有意义

- 对每个任务设计独立的模型人力开销大，训练成本高；但是这些一个通用的大模型都可以做，并且效果更好。

AI相关方向边界模糊

- 大模型既可以做cv，也可以nlp，还可以rl

ChatGPT

模型+数据+算力+软件

模型

Transformer

模型架构基本大同小异，壁垒是数据和算力

数据

无法准确估计训练数据量

从雇佣的数据标注者，数据量和质量都很高

算力

数万个 A100 GPU

从头训练大模型需要的算力是非常惊人的，但是我们可以基于有些已经开源的大模型

软件

标志性的大语言模型

GLM

llaMA2（学界最为认可）

最新code llama2

大语言模型架构

祖先都是Transformer

Decoder-Only架构代表：GPT

沿用了BERT的Fine-tuning

先Pre-training 再Fine-tuning是否有不足？

最终有大量的模型拷贝，相互不同

Fine-tuning导致模型过拟合了具体的任务数据分布(Overfit)

解决方法：

Scaling up ：增加模型参数，实现顿悟（涌现力）
in-Context learning 提示学习

1. 在预训练阶段就学习多种任务能力，后续在推理时通过提示词让模型想起（激发）对应任务的能力
2. 多任务能力在预训练就完成了训练

ChatGPT真正的核心：RL PART

未来方向

多模态大模型：从语言到视觉

统一大模型

作为多模态学习中的两个典型模态，nlp和cv的大模型在架构上还无法统一

- NLP：基于语言模型
- CV：Vision Transformer(ViT)

大模型幻觉

大模型胡说八道

安全

大模型的训练数据，我们在使用的时候可以通过引导让他把训练数据吐出来

训练数据涉及到安全隐私问题