1. 目前主流的开源LLM模型有哪些,它们都是什么架构?
目前公认最强大语言模型仍然是 GPT4 ,但由于 OpenAI 没有将其开源,商业部署成本较高,且难以进行微调,因此众多开源模型进入了大众的视野,包括国外的 LLaMa、Bloom;国内的 ChatGLM、Baichuan、Qwen、InterLM 等等,这些都是优秀的开源模型。
LLaMA:由 Meta 研发,目前有 LLaMA 和 LLaMa2 两个版本,LLaMA 包含 7B、13B、33B、65B 四个规模的模型,LLaMA2包含 7B、13B、34B,70B 四个规模的模型。LLaMA 和 LLaMa2 都是 Decoder-only 架构的模型。但由于 LLaMA 的训练数据集中中文数据含量极低,因此 LLaMA 在中文能力方面较弱,无法直接使用,一般使用中文 LLaMA 项目,例如Chinese-LLaMA-Alpaca。
BLOOM:是由 Hugging Face 在内由数百名研究人员合作开发和发布,模型规模为 176B,训练数据包含包含46种自然语言和13种编程语言,采用 Decoder-only 架构,同时 BLOOM 使用 ALiBi 来向模型注入位置信息。
Mixtral:MistralAI 开源全球首个基于混合专家技术的大模型 Mistral-8x7B-MoE,Mixtral-8x7B 是首个被证明有效的 开源的 MoE LLM,相比于古早的 Switch-Transformer 、 GLaM 等 Research, Mixtral-8x7B 证明了 MoE 真的可以落地,且效果远好于相同激活值的 Dense 模型。Mistral-8x7B-MoE 由8个拥有 7B 参数的专家网络组成,每个token的处理交由最相关的两个专家进行。这种结构不仅提高了模型处理信息的效率,还降低了运行成本。
ChatGLM:由清华大学 KEG 实验室和智谱 AI 共同打造,目前已开源 ChatGLM-6B、ChatGLM2-6b、ChatGLM3-6b 三个模型,这三个模型都是由 130B 的 ChatGLM 模型蒸馏得到的,训练数据集包含中英双语,其中 ChatGLM 借助编码器-解码器架构思想,前半部分采用类似于Bert的双向注意力,后半部分采用类似于GPT的自回归架构进行预测;而 ChatGLM2 和 ChatGLM3 采用的是仅解码器架构。
Baichuan:由前搜狗公司 CEO 王小川创立的百川智能研发,半年时间里,接连发布 Baichuan-7B/13B、Baichuan2-7B/13B 四款开源可免费商用大模型及 Baichuan-53B、Baichuan2-53B 两款闭源大模型,训练数据包括从各种来源收集数据包括通用互联网网页、书籍、研究论文、代码库等,基于 Transformer 架构。
Qwen:由阿里云开发,训练数据来源于公共网络文档、百科全书、书籍、代码等,主要语种为中文和英文,包含1.8B、7B、14B、72B 四个规模的模型,Qwen 架构与 LLaMA 相似,但采用了 FlashAttention 实现模型加速,同时使用了 bias_add 和 titoken 对模型进行优化。
2. prefix LM 和 causal LM 区别是什么?
perfix LM(前缀语言模型)和 causal LM(因果语言模型)区别在于生成文本的方式和训练目标。
prefix LM:prefix LM 是一种生成模型,生成每个词时可以考虑之前的上下文信息。在生成时可以根据给定的前缀预测下一个可能的词。常用于文本生成、机器翻译等任务。
causal LM:causal LM 是一种自回归模型,只能根据之前的文本生成后续的文本,而不能根据之后的文本生成之前的文本。训练时,因果模型的目标是预测下一个词的概率。常用于文本生成、语言建模等任务。
3. 涌现能力是什么原因?
涌现能力是指随着 LLM 规模的扩大,达到了一些临界规模,在这些规模上模型新的能力被“解锁”。LLM 并没有被直接训练拥有这些能力,但它们快速地以不可预测的方式出现,这些新兴能力包括执行运算、回答问题、总结段落等,LLM 仅需观察自然语言即可习得这些能力。目前并没有关于涌现能力明确的解释。
原因猜想:
- 对LLM的评价指标不够平滑。
- 任务过于复杂,复杂任务由多个子任务组成,子任务符合 Scaling Law,最终体现为涌现能力。
- Grokking 现象,模型长时间训练后会由记忆训练数据转变为对未训练数据存在较强的泛化能力。
4. 为什么现在 LLM 基本都是 Decoder-only?
大多数 LLM 采用 Decoder-only 架构除了训练效率和工程实现上的优势除外,在理论上是因为 Encoder 的双向注意力机制会存在低秩问题,这可能会削弱模型的表达能力,就生成任务而言,引入双向注意力机制没有实质好处。同时,上下文学习为 Decoder-only 架构带来了更好的 few-shot 性能,causal attention 还有一个容易被忽略的属性,具有隐式的位置编码功能,在同等参数量下,Decoder-only 的表现会优于 Encoder-Decoder,因此同等推理成本下,Decoder-only 架构是最优的选择。