一、基础原理篇(8 题)
1. 什么是 Transformer?核心结构是什么?
答:Transformer 是基于自注意力机制的 seq2seq 模型,完全替代 RNN 结构。核心结构:
- Encoder(编码)+ Decoder(解码)
- 多头注意力(Multi-Head Attention)
- 前馈网络 FFN
- 层归一化、残差连接举例:GPT 只用 Decoder 单向结构;BERT 只用 Encoder 双向结构。
2. 自注意力机制(Self-Attention)原理?
答:通过 Q、K、V 三个矩阵计算每个词对其他词的权重。公式:Attention(Q,K,V)=softmax(dkQKT)V举例:句子 “苹果公司发布新品”,注意力会让 “苹果” 和 “公司” 权重更高,避免歧义。
3. 为什么要除以√d_k?
答:防止维度 d_k 过大时,点积结果方差爆炸,softmax 趋向饱和,梯度消失。举例:d=512 时 √d≈22.6,不除会导致大部分权重接近 0/1,训练不动。
4. 多头注意力是什么?为什么有用?
答:把 QKV 切成多组,并行学习不同类型的依赖关系(句法、语义、指代等)。举例:
- 头 1:学主谓宾结构
- 头 2:学指代关系(it→苹果)
- 头 3:学上下文关联最终拼接增强表达能力。
5. 位置编码(Positional Encoding)为什么需要?
答:Transformer 无时序结构,必须显式注入位置信息。举例:“我打他” 和 “他打我” 语义完全相反,必须靠位置编码区分顺序。
6. 相对位置编码 vs 绝对位置编码?
答:
- 绝对:给每个位置固定编码(Transformer 原版)
- 相对:建模token 之间距离,泛化更强举例:RoPE、ALiBi 都是相对位置,支持外推更长文本。
7. GPT 架构为什么是 Decoder-only?
答:使用掩码自注意力,只能看到前面 token,适合自回归生成。举例:输入 “今天天气”,模型只能根据前文生成后续内容。
8. BERT 与 GPT 的核心区别?
答:
- BERT:Encoder-only,双向注意力,MLM 预训练,擅长理解
- GPT:Decoder-only,单向注意力,AR 生成,擅长创作举例:BERT 做文本分类;GPT 做对话、写作。
二、预训练 & 微调篇(8 题)
9. 什么是预训练、微调、Prompt Tuning?
答:
- 预训练:海量无标注数据学通用语言规律
- 微调:用下游任务数据微调全部 / 部分参数
- Prompt Tuning:冻结大模型,只训练少量提示向量举例:ChatGPT 先预训练,再 SFT,再 RLHF。
10. 什么是 SFT(有监督微调)?
答:用人工标注的〈输入,输出〉对,微调模型使其遵循指令。举例:给模型 10 万条问答对,让它学会按要求回答。
11. RLHF 是什么?三阶段流程?
答:基于人类反馈的强化学习,让模型更对齐人类偏好。流程:
- 预训练基座
- SFT 监督微调
- 训练奖励模型 RM
- PPO 强化学习优化举例:ChatGPT、文心一言都用 RLHF。
12. PPO 核心思想?
答:近端策略优化,限制更新步长,防止训练崩坏、奖励过度优化。举例:模型回答不能为了高分而胡说八道。
13. DPO 对比 PPO 优势?
答:DPO 直接优化偏好对,不需要奖励模型,更稳、更快、更省资源。举例:现在开源模型如 Zephyr、Qwen 普遍优先 DPO。
14. 什么是 LoRA?为什么高效微调?
答:低秩自适应,在 Transformer 线性层旁插入小秩分解矩阵。
- 只训练 0.1%~1% 参数
- 不破坏原模型能力举例:7B 模型全量微调需 26G 显存,LoRA 只需 8G 左右。
15. LoRA 插在哪些层效果最好?
答:Query 和 Value 投影层。举例:Llama、Qwen 官方配置都只在 q_proj、v_proj 加 LoRA。
16. 全参数微调 vs LoRA vs QLoRA?
答:
- 全量:效果最好,显存爆炸
- LoRA:效果接近全量,显存友好
- QLoRA:4/8 比特量化 + LoRA,消费级显卡可训举例:个人 24G 4090 用 QLoRA 可训 70B 模型。
三、架构与模型家族篇(6 题)
17. Llama 系列核心改进?
答:
- RMSNorm 替代 LayerNorm
- SwiGLU 激活
- 多头注意力 Grouped-Query Attention
- RoPE 位置编码举例:Llama-2 7B/13B/70B 成为开源基座标杆。
18. 什么是 GQA/MQA?解决什么问题?
答:
- MQA:多查询注意力,多组共享一套 KV
- GQA:分组查询,平衡速度与效果作用:大幅降低推理显存占用,提升长文本速度。举例:Llama-2 70B、GPT-4 都用 GQA。
19. 什么是 MoE 架构?
答:混合专家,每个 token 只激活部分专家层。举例:
- GPT-4
- Mixtral 8x7B
- Qwen-MoE优点:大参数量、低成本推理。
20. 什么是长上下文窗口扩展?外推方法?
答:让模型支持更长文本(如 128k → 1M)。方法:
- RoPE 外推(NTK、Dynamic NTK)
- ALiBi
- Sliding Window Attention举例:Claude 3 支持 200k+,GPT-4 Turbo 128k。
21. KV Cache 是什么?为什么推理必备?
答:缓存历史 token 的 KV,避免重复计算,生成速度提升 10~100 倍。举例:生成 1000 词时,前 999 个 KV 直接复用。
22. 什么是 speculative decoding(推测解码)?
答:用小模型快速猜若干 token,大模型验证接受,提速 2~3 倍。举例:GPT-4、Gemini 都使用该技术。
四、推理 & 部署 & 量化篇(6 题)
23. LLM 推理为什么慢?
答:
- 自回归串行生成
- KV Cache 占显存
- 矩阵计算大
- 长文本注意力复杂度 O (n²)举例:生成 1 个 token 要做一次前向传播。
24. 模型量化是什么?INT4/INT8 原理?
答:把 FP16/FP32 权重映射到低比特整数,压缩显存、加速推理。举例:7B 模型 FP16 占 13GB,INT4 只需 3.5GB。
25. AWQ、GPTQ、GGUF 区别?
答:
- GPTQ:静态量化,推理快
- AWQ:感知权重重要性,效果更优
- GGUF:GGML 格式,适合 CPU 本地运行举例:本地跑大模型常用 GGUF;服务端用 GPTQ/AWQ。
26. 什么是 vLLM?PagedAttention 原理?
答:
- vLLM 是高吞吐推理引擎
- PagedAttention 把 KV 分页管理,解决内存碎片举例:吞吐量比 HuggingFace 高 10~20 倍。
27. 什么是张量并行、流水线并行?
答:
- 张量并行:单层切多卡
- 流水线并行:层间切多卡
- 3D 并行:张量 + 流水线 + 数据并行举例:70B 模型必须多卡并行才能跑。
28. 如何优化 LLM 推理时延?
答:
- KV Cache
- 量化 INT4/INT8
- GQA/MQA
- PagedAttention
- 推测解码
- 动态批处理
五、RAG 检索增强生成篇(4 题)
29. RAG 是什么?解决什么问题?
答:检索增强生成,从外部知识库检索相关片段送入模型。解决:
- 知识过时
- 幻觉
- 隐私数据无法预训练举例:企业内部问答系统必用 RAG。
30. RAG 经典流程?
答:
- 文档切分(Chunk)
- 向量化 Embedding
- 建向量库
- 用户查询向量化
- 检索 Top-K
- 构造 Prompt 生成答案举例:LangChain + Chroma + Qwen 实现 RAG。
31. 如何解决 RAG 幻觉?
答:
- 高质量 chunk 切分
- 多路召回(向量 + 关键词)
- 重排模型 Rerank
- 引用溯源
- 限制模型只使用检索材料举例:bge-reranker 大幅提升准确率。
32. 什么是 HyDE?
答:假设文档嵌入,先生成伪文档再检索,提升稀疏问题召回。举例:用户问 “怎么优化大模型?”,先生成一段相关段落再检索。
六、评估 & 幻觉 & 安全篇(4 题)
33. LLM 幻觉是什么?成因?
答:模型编造看似合理但错误的信息。成因:
- 训练数据噪声
- 知识冲突
- 生成偏好强于事实
- 长文本丢失信息举例:编造不存在的论文、法规、数据。
34. 如何减少幻觉?
答:
- RAG 检索增强
- SFT + DPO/RLHF
- 事实校验工具
- 引用强制机制
- 少样本 + CoT举例:让模型 “先检索再回答”。
35. LLM 常见评估指标?
答:
- 生成:BLEU、ROUGE、Perplexity
- 对齐:MT-Bench、AlpacaEval
- 事实性:TruthfulQA
- 代码:HumanEval、MBPP举例:MT-Bench 是对话模型通用榜单。
36. 大模型 alignment(对齐)是什么?
答:让模型行为符合人类意图:有用、诚实、无害、合规。技术:
- SFT
- RLHF/DPO
- 安全护栏
- 红队测试举例:拒绝违法、暴力、色情内容。