图解LLM，入门大模型必看

2025-04-27 511 阅读2分钟

9张图解LLM

✅ 1. Transformer vs. Mixture of Experts

Transformer 每个解码器块使用固定的前馈网络；
Mixture of Experts (MoE) 通过 Router 动态选择部分专家网络，提升模型容量同时减少计算量。

✅ 2. 5种微调大语言模型（LLM）的方法（LoRA系列）

LoRA：冻结原始参数，仅训练低秩矩阵 A 和 B；
LoRA-FA：输入侧也加入变换，更灵活；
VeRA：参数更少，训练共享向量 + 偏置；
Delta-LoRA：每层引入多个 LoRA 分支，增强表达；
LoRA+：在 B 矩阵上使用更大学习率，加快收敛。

✅ 3. Traditional RAG vs. Agentic RAG

传统RAG：直接用 query 检索向量库，拼接上下文喂给 LLM；
Agentic RAG：引入 Agent，迭代重写问题、判断是否信息不足、是否需要用工具或检索源，流程更智能。

✅ 4. 5种 Agentic AI 设计模式

Reflection：先生成再反思输出，迭代优化；
Tool Use：调用外部工具补充信息；
ReAct：推理 + 动作交替进行；
Planning：先拆解任务，逐步执行；
Multi-agent：多个 Agent 协作解决复杂问题。

✅ 5. 5种 RAG 文本切分策略（Chunking）

Fixed-size：定长切分，简单易实现；
Semantic：按语义相似性拼接；
Recursive：大段内容递归再切分；
结构化切分：按文档结构如标题、章节切分；
LLM生成切分：利用LLM智能划块。

✅ 6. 5级 Agentic AI 系统能力层级

基础回复者：只用 LLM 输出结果；
Router 模式：路由器 LLM 选择最佳模型；
工具调用：LLM 能调用 API、数据库等外部资源；
多智能体：多个子 Agent 协同；
自主智能体：生成+验证器 Agent 形成闭环反馈优化。

✅ 7. Traditional RAG vs. HyDE

RAG：直接将 query 用作向量检索；
HyDE：先让 LLM 生成一段“假设文本”，用该文本向量检索，提高相关性。

✅ 8. Traditional RAG vs. Graph RAG

RAG：依赖向量库检索相关文档；
Graph RAG：用 LLM 生成知识图谱（实体+关系），结合图数据库进行图遍历，获取结构化上下文。

✅ 9. KV Caching in LLMs

Insight 1：生成新 token 只需最后的 hidden state；
Insight 2：最后 hidden state 只依赖最后一个 query 向量和之前所有的 key/value 向量；
结论：将 K/V 向量缓存起来，可避免重复计算，大幅提升推理效率。