大厂真实高频的 LLM 大模型面试 36 题例题详解一、基础原理篇（8 题） 1. 什么是 Transformer？核心

一、基础原理篇（8 题）

1. 什么是 Transformer？核心结构是什么？

答：Transformer 是基于自注意力机制的 seq2seq 模型，完全替代 RNN 结构。核心结构：

Encoder（编码）+ Decoder（解码）
多头注意力（Multi-Head Attention）
前馈网络 FFN
层归一化、残差连接举例：GPT 只用 Decoder 单向结构；BERT 只用 Encoder 双向结构。

2. 自注意力机制（Self-Attention）原理？

答：通过 Q、K、V 三个矩阵计算每个词对其他词的权重。公式：Attention(Q,K,V)=softmax(dkQKT)V举例：句子 “苹果公司发布新品”，注意力会让 “苹果” 和 “公司” 权重更高，避免歧义。

3. 为什么要除以√d_k？

答：防止维度 d_k 过大时，点积结果方差爆炸，softmax 趋向饱和，梯度消失。举例：d=512 时 √d≈22.6，不除会导致大部分权重接近 0/1，训练不动。

4. 多头注意力是什么？为什么有用？

答：把 QKV 切成多组，并行学习不同类型的依赖关系（句法、语义、指代等）。举例：

头 1：学主谓宾结构
头 2：学指代关系（it→苹果）
头 3：学上下文关联最终拼接增强表达能力。

5. 位置编码（Positional Encoding）为什么需要？

答：Transformer 无时序结构，必须显式注入位置信息。举例：“我打他” 和 “他打我” 语义完全相反，必须靠位置编码区分顺序。

6. 相对位置编码 vs 绝对位置编码？

答：

绝对：给每个位置固定编码（Transformer 原版）
相对：建模token 之间距离，泛化更强举例：RoPE、ALiBi 都是相对位置，支持外推更长文本。

7. GPT 架构为什么是 Decoder-only？

答：使用掩码自注意力，只能看到前面 token，适合自回归生成。举例：输入 “今天天气”，模型只能根据前文生成后续内容。

8. BERT 与 GPT 的核心区别？

答：

BERT：Encoder-only，双向注意力，MLM 预训练，擅长理解
GPT：Decoder-only，单向注意力，AR 生成，擅长创作举例：BERT 做文本分类；GPT 做对话、写作。

二、预训练 & 微调篇（8 题）

9. 什么是预训练、微调、Prompt Tuning？

答：

预训练：海量无标注数据学通用语言规律
微调：用下游任务数据微调全部 / 部分参数
Prompt Tuning：冻结大模型，只训练少量提示向量举例：ChatGPT 先预训练，再 SFT，再 RLHF。

10. 什么是 SFT（有监督微调）？

答：用人工标注的〈输入，输出〉对，微调模型使其遵循指令。举例：给模型 10 万条问答对，让它学会按要求回答。

11. RLHF 是什么？三阶段流程？

答：基于人类反馈的强化学习，让模型更对齐人类偏好。流程：

预训练基座
SFT 监督微调
训练奖励模型 RM
PPO 强化学习优化举例：ChatGPT、文心一言都用 RLHF。

12. PPO 核心思想？

答：近端策略优化，限制更新步长，防止训练崩坏、奖励过度优化。举例：模型回答不能为了高分而胡说八道。

13. DPO 对比 PPO 优势？

答：DPO 直接优化偏好对，不需要奖励模型，更稳、更快、更省资源。举例：现在开源模型如 Zephyr、Qwen 普遍优先 DPO。

14. 什么是 LoRA？为什么高效微调？

答：低秩自适应，在 Transformer 线性层旁插入小秩分解矩阵。

只训练 0.1%~1% 参数
不破坏原模型能力举例：7B 模型全量微调需 26G 显存，LoRA 只需 8G 左右。

15. LoRA 插在哪些层效果最好？

答：Query 和 Value 投影层。举例：Llama、Qwen 官方配置都只在 q_proj、v_proj 加 LoRA。

16. 全参数微调 vs LoRA vs QLoRA？

答：

全量：效果最好，显存爆炸
LoRA：效果接近全量，显存友好
QLoRA：4/8 比特量化 + LoRA，消费级显卡可训举例：个人 24G 4090 用 QLoRA 可训 70B 模型。

三、架构与模型家族篇（6 题）

17. Llama 系列核心改进？

答：

RMSNorm 替代 LayerNorm
SwiGLU 激活
多头注意力 Grouped-Query Attention
RoPE 位置编码举例：Llama-2 7B/13B/70B 成为开源基座标杆。

18. 什么是 GQA/MQA？解决什么问题？

答：

MQA：多查询注意力，多组共享一套 KV
GQA：分组查询，平衡速度与效果作用：大幅降低推理显存占用，提升长文本速度。举例：Llama-2 70B、GPT-4 都用 GQA。

19. 什么是 MoE 架构？

答：混合专家，每个 token 只激活部分专家层。举例：

GPT-4
Mixtral 8x7B
Qwen-MoE优点：大参数量、低成本推理。

20. 什么是长上下文窗口扩展？外推方法？

答：让模型支持更长文本（如 128k → 1M）。方法：

RoPE 外推（NTK、Dynamic NTK）
ALiBi
Sliding Window Attention举例：Claude 3 支持 200k+，GPT-4 Turbo 128k。

21. KV Cache 是什么？为什么推理必备？

答：缓存历史 token 的 KV，避免重复计算，生成速度提升 10~100 倍。举例：生成 1000 词时，前 999 个 KV 直接复用。

22. 什么是 speculative decoding（推测解码）？

答：用小模型快速猜若干 token，大模型验证接受，提速 2~3 倍。举例：GPT-4、Gemini 都使用该技术。

四、推理 & 部署 & 量化篇（6 题）

23. LLM 推理为什么慢？

答：

自回归串行生成
KV Cache 占显存
矩阵计算大
长文本注意力复杂度 O (n²)举例：生成 1 个 token 要做一次前向传播。

24. 模型量化是什么？INT4/INT8 原理？

答：把 FP16/FP32 权重映射到低比特整数，压缩显存、加速推理。举例：7B 模型 FP16 占 13GB，INT4 只需 3.5GB。

25. AWQ、GPTQ、GGUF 区别？

答：

GPTQ：静态量化，推理快
AWQ：感知权重重要性，效果更优
GGUF：GGML 格式，适合 CPU 本地运行举例：本地跑大模型常用 GGUF；服务端用 GPTQ/AWQ。

26. 什么是 vLLM？PagedAttention 原理？

答：

vLLM 是高吞吐推理引擎
PagedAttention 把 KV 分页管理，解决内存碎片举例：吞吐量比 HuggingFace 高 10~20 倍。

27. 什么是张量并行、流水线并行？

答：

张量并行：单层切多卡
流水线并行：层间切多卡
3D 并行：张量 + 流水线 + 数据并行举例：70B 模型必须多卡并行才能跑。

28. 如何优化 LLM 推理时延？

答：

KV Cache
量化 INT4/INT8
GQA/MQA
PagedAttention
推测解码
动态批处理

五、RAG 检索增强生成篇（4 题）

29. RAG 是什么？解决什么问题？

答：检索增强生成，从外部知识库检索相关片段送入模型。解决：

知识过时
幻觉
隐私数据无法预训练举例：企业内部问答系统必用 RAG。

30. RAG 经典流程？

答：

文档切分（Chunk）
向量化 Embedding
建向量库
用户查询向量化
检索 Top-K
构造 Prompt 生成答案举例：LangChain + Chroma + Qwen 实现 RAG。

31. 如何解决 RAG 幻觉？

答：

高质量 chunk 切分
多路召回（向量 + 关键词）
重排模型 Rerank
引用溯源
限制模型只使用检索材料举例：bge-reranker 大幅提升准确率。

32. 什么是 HyDE？

答：假设文档嵌入，先生成伪文档再检索，提升稀疏问题召回。举例：用户问 “怎么优化大模型？”，先生成一段相关段落再检索。

六、评估 & 幻觉 & 安全篇（4 题）

33. LLM 幻觉是什么？成因？

答：模型编造看似合理但错误的信息。成因：

训练数据噪声
知识冲突
生成偏好强于事实
长文本丢失信息举例：编造不存在的论文、法规、数据。

34. 如何减少幻觉？

答：

RAG 检索增强
SFT + DPO/RLHF
事实校验工具
引用强制机制
少样本 + CoT举例：让模型 “先检索再回答”。

35. LLM 常见评估指标？

答：

生成：BLEU、ROUGE、Perplexity
对齐：MT-Bench、AlpacaEval
事实性：TruthfulQA
代码：HumanEval、MBPP举例：MT-Bench 是对话模型通用榜单。

36. 大模型 alignment（对齐）是什么？

答：让模型行为符合人类意图：有用、诚实、无害、合规。技术：

SFT
RLHF/DPO
安全护栏
红队测试举例：拒绝违法、暴力、色情内容。