-
论文题目:A Survey of Large Language Models
-
最近几年现有的 LLM(大小超过 100 亿)的时间轴。时间轴主要是根据模型技术论文的发布日期(例如提交到 arXiv 的日期)建立的。包括mT5、盘古-α、T0、gpt-neo-20b、CodeGen、UL2、Flan-T5、mT0、CodeGen2、qwen、baichuan、interlm、mpt等等。
- ChatGPT:在 2022 年 11 月,OpenAI 发布了对话语言模型ChatGPT,ChatGPT是以类似 InstructGPT的方式进行训练的(在原始文章中称为“InstructGPT 的姊妹模型”),但专门针对对话能力进行了优化。在 ChatGPT和 InstructGPT 的数据收集上,他们指出了一个不同之处:ChatGPT 训练数据是通过将人类生成的对话(扮演用户和AI 两个角色)与 InstructGPT 数据集结合起来以对话形式生成。
- GPT-4:作为另一重要的进展,GPT-4 [45] 于 2023 年3 月发布,将文本输入扩展到多模态信号。总体而言,相比GPT-3.5,GPT-4 在解决复杂任务方面具有更强的能力,在许多评估任务上展现出大幅度的性能提升。
- LLaMA模型集合是Meta AI在2023年2月引入的,包括四个尺寸(7B、13B、30B和65B)。LLaMA的正式发布引起了学术界和产业界的广泛关注。LLaMA模型在各种开放基准测试中取得了非常出色的性能,成为迄今为止最流行的开放语言模型。大量研究人员通过指令调优或持续预训练来扩展LLaMA模型。特别是,由于相对较低的计算成本,指令调优LLaMA已成为开发定制或专门模型的主要方法。为了有效地适应非英语语言的llama模型,它通常需要扩展原始词汇(主要在英语语料库上训练),或者用目标语言的指令或数据对其进行微调。在这些扩展模型中,stanford dalpaca是第一个基于LLaMA进行微调的开放式指令遵循模型(7B)。它是通过使用text-davinci-003通过selfinstruct生成的52kinstruct -following演示来训练的。命名为Alpaca- 52k的指令数据和训练代码在随后的工作中被广泛采用,例如AlpacaLoRA(使用lora复制斯坦福羊驼),Koala和BELLE。此外,骆马是另一种流行的LLaMA变体,通过从ShareGPT收集的用户共享对话进行训练。由于ellama模型族的优异性能和可用性,许多多模态模型都将其作为基础语言模型,以实现强大的语言理解和生成能力。与其他变体相比,Vicuna在多模态语言模型中更受青睐,这导致了各种流行模型的出现,包括LLaVA、MiniGPT4、InstructBLIP和PandaGPT。LLaMA的发布极大地推动了llm的研究进展。