LLM认识和入门 | 青训营笔记Why LLM? 通用人工智能为什么选择大型语言模型（LLM）？通用人工智能大型语

Why LLM?

通用人工智能为什么选择大型语言模型（LLM）？

通用人工智能

大型语言模型不仅限于处理某一特定任务，而是能够应对多种不同的任务。

一些小模型的研究不再有意义

对于学术研究而言，传统的小规模模型的研究逐渐失去了意义。设计和训练针对每个任务的独立模型需要大量的人工投入和高昂的训练成本，而一个通用的大模型可以涵盖这些任务，并且通常能取得更好的效果。

AI相关方向边界模糊

随着人工智能领域的不断发展，原本清晰的方向逐渐变得模糊。大型模型具有跨领域的能力，既可以处理计算机视觉（CV）任务，又可以处理自然语言处理（NLP）任务，甚至能够应用于强化学习（RL），展现了其强大的通用性。

ChatGPT

模型+数据+算力+软件

模型

以Transformer为基础的架构，已成为主流。尽管模型架构大致相同，但真正的壁垒在于数据和算力的资源。

模型架构基本大同小异，壁垒是数据和算力

数据

训练所需的数据量难以精确估算，但可以确认的是，训练一个高效的大型模型需要海量且高质量的数据。通过雇佣大量专业的数据标注者，确保了数据的规模和质量达到要求。

算力

训练大模型所需的算力是巨大的，通常涉及数万个A100 GPU。尽管从零开始训练一个大型模型所需的计算资源相当惊人，但我们也可以利用已经开源的大型模型进行微调，从而大大降低了算力成本。

软件

标志性的大语言模型

1. GPT系列（Generative Pre-trained Transformer）

GPT-3（OpenAI）：目前最著名的语言生成模型之一，包含1750亿个参数，能够进行多种自然语言处理任务，如文本生成、翻译、总结等。
GPT-4（OpenAI）：在GPT-3的基础上进行改进，进一步增强了理解和生成能力，支持更复杂的推理和任务处理。
ChatGPT：基于GPT-4的对话模型，针对对话和人机交互进行了优化。

2. BERT系列（Bidirectional Encoder Representations from Transformers）

BERT（Google）：开创了预训练-微调范式，通过双向编码器学习上下文信息，广泛用于各种NLP任务，如文本分类、命名实体识别（NER）等。
RoBERTa（Facebook）：对BERT进行改进，去除了Next Sentence Prediction任务并增加了训练数据量，表现出色。
DistilBERT（Hugging Face）：基于BERT的小型化模型，旨在在保持性能的同时提高速度和减少计算资源消耗。

3. T5（Text-to-Text Transfer Transformer）

T5（Google）：将所有NLP任务统一成文本到文本的形式，从而使得模型能够处理文本生成、翻译、摘要等多种任务。T5采用了与BERT和GPT不同的设计，重点是对所有任务进行统一建模。

4. LaMDA（Language Model for Dialogue Applications）

LaMDA（Google）：针对对话生成任务进行优化，重点在于进行更自然、开放式的对话，能够更好地理解和回答跨领域的问题。

5. CLIP（Contrastive Language-Image Pretraining）

CLIP（OpenAI）：一种跨模态模型，能够理解和生成与图像相关的文本，反之亦然。通过图像和文本的对比学习，使得CLIP能够在图像分类、图像搜索等任务中表现出色。

6. DALL·E系列

DALL·E（OpenAI）：一个生成模型，能够基于文本描述生成图像。例如，给定一段文字“一个骑着牛的宇航员”，DALL·E能够生成相应的图像。DALL·E 2在图像生成质量上有了显著提升，支持更精确和高质量的图像输出。

7. DeepMind的Alpha系列

AlphaGo（DeepMind）：在围棋领域取得革命性突破，击败了世界顶级围棋选手。
AlphaZero（DeepMind）：在没有任何人类知识的指导下，通过自我对弈学习，掌握了围棋、国际象棋和日本将棋等游戏。
AlphaFold（DeepMind）：解决了生物学中长期存在的蛋白质折叠问题，具有重要的科学价值和实际应用前景。

8. Swin Transformer

Swin Transformer（Microsoft）：一种针对计算机视觉任务的Transformer架构，它采用了层次化的设计，显著提升了图像处理效率，并在多个视觉任务中取得了突破性的成果。

9. Megatron

Megatron（NVIDIA）：由NVIDIA开发的大型语言模型，通过分布式训练实现了数百亿到千亿参数级别的模型，并在大规模的多任务学习中展现了强大的能力。

10. PaLM（Pathways Language Model）

PaLM（Google）：一个大规模的语言模型，具有超过5400亿个参数，是Google推出的最新大规模语言模型之一，在多个NLP任务上展现了超凡的表现。

11. Mistral

Mistral（Mistral AI）：一种开源的稀疏激活大语言模型，着重于训练更高效且可扩展的模型，减少计算资源消耗并提高模型性能。

这些模型不仅在学术界引起了广泛关注，还推动了人工智能技术的实际应用，包括语音助手、自动驾驶、医疗健康、创意艺术等多个领域。

大语言模型架构

大语言模型的架构主要源自于Transformer，它是许多现代语言模型的基础。

Decoder-Only架构代表：GPT

GPT系列采用了Decoder-only架构，沿用了BERT的Fine-tuning方式进行训练。

先Pre-training 再Fine-tuning是否有不足？

在传统的“先预训练，再微调（Fine-tuning）”方法中，存在一些不足之处：

微调可能会导致模型过拟合到具体任务的数据分布，从而降低了模型的泛化能力。
这种方式容易产生大量模型的拷贝，每个模型在处理不同任务时可能变得高度特定，缺乏足够的灵活性。

解决方法：

Scaling up（扩展模型） ：通过增加模型的参数规模，增强模型的能力，以实现“涌现能力”（emergent capabilities）。通过不断扩大模型规模，模型能够展现出超出预期的复杂能力。
In-context learning（上下文学习） ：通过“提示学习”来实现。在预训练阶段，模型学习了多种任务的能力，但并不依赖于微调。推理时，通过提供合适的提示词，模型能激活其在预训练过程中学到的任务能力，从而完成特定的任务。这种方法使得模型能够在不需要额外微调的情况下，灵活应对多种任务。

总的来说，多任务能力是在预训练阶段就得到培养的，推理时通过合适的提示来激发任务能力，从而减少了对任务数据分布的过拟合。