LLaMA系列

142 阅读1分钟

LLaMA

论文链接

核心思想

大部分用户没有训练LLM的资源,更多的是拿着训好的LLM来推理。首选的模型应该不是训练最快的,而应该是推理最快的小LLM。

摘要

  • LLaMA(Large Language Model Meta AI),共有 7B、13B、33B、65B 四种版本。
  • 关于模型性能,LLaMA 的性能非常优异:具有 130 亿参数的 LLaMA 模型「在大多数基准上」可以胜过 GPT-3( 参数量达 1750 亿),而且可以在单块 V100 GPU 上运行;而最大的 650 亿参数的 LLaMA 模型可以媲美谷歌的 Chinchilla-70B 和 PaLM-540B。
  • 训练集的来源都是公开数据集。整个训练数据集在 token 化之后大约包含 1.4T 的 token。其中,LLaMA-65B 和 LLaMA-33B 是在 1.4万亿个 token 上训练的,而最小的模型 LLaMA-7B 是在 1万亿个 token 上训练的。

模型结构

202401281517.png

LLaMA 2

论文链接

LLaMA 2

  • 训练数据从 1.4T tokens 增加到 2.0 tokens
  • 上下文窗口从 2k 增加到 4k
  • 采用分组查询注意力( Grouped-Query Attention):对于更大参数量、更大的 context length、更大的 batchsize 来说,原始的MHA(multi-head attention)的内存占用会更高(因为在计算时要缓存pre token的K、V矩阵)。

LLaMA 2-CHAT

训练流程

202401281548.png