青训营笔记:LLM简易入门

126 阅读2分钟

参考资源

COS 597G: Understanding Large Language Models

intro-llm.github.io/

Large language model LLM

现阶段核心依然是语言

Why LLM?

通用人工智能

一个模型不仅仅局限于一个特定的任务,而是可以处理各种任务

对于学术研究?

  • 一些小模型的研究不再有意义
    • 对每个任务设计独立的模型人力开销大,训练成本高;但是这些一个通用的大模型都可以做,并且效果更好。
  • AI相关方向边界模糊
    • 大模型既可以做cv,也可以nlp,还可以rl

ChatGPT

模型+数据+算力+软件

模型

Transformer

模型架构基本大同小异,壁垒是数据和算力

数据

无法准确估计训练数据量

从雇佣的数据标注者,数据量和质量都很高

算力

数万个 A100 GPU

从头训练大模型需要的算力是非常惊人的,但是我们可以基于有些已经开源的大模型

软件

标志性的大语言模型

GLM

llaMA2(学界最为认可)

最新code llama2

大语言模型架构

祖先都是Transformer

Decoder-Only架构代表:GPT

沿用了BERT的Fine-tuning

先Pre-training 再Fine-tuning是否有不足?

最终有大量的模型拷贝,相互不同

  • Fine-tuning导致模型过拟合了具体的任务数据分布(Overfit)

解决方法:

  1. Scaling up :增加模型参数,实现顿悟(涌现力)
  2. in-Context learning 提示学习
    1. 在预训练阶段就学习多种任务能力,后续在推理时通过提示词让模型想起(激发)对应任务的能力
    2. 多任务能力在预训练就完成了训练

ChatGPT真正的核心:RL PART

未来方向

多模态大模型:从语言到视觉

统一大模型

  • 作为多模态学习中的两个典型模态,nlp和cv的大模型在架构上还无法统一
    • NLP:基于语言模型
    • CV:Vision Transformer(ViT)

大模型幻觉

大模型胡说八道

安全

大模型的训练数据,我们在使用的时候可以通过引导让他把训练数据吐出来

训练数据涉及到安全隐私问题