大厂真实高频的 LLM 大模型面试 36 题例题详解

0 阅读7分钟

一、基础原理篇(8 题)

1. 什么是 Transformer?核心结构是什么?

:Transformer 是基于自注意力机制的 seq2seq 模型,完全替代 RNN 结构。核心结构

  • Encoder(编码)+ Decoder(解码)
  • 多头注意力(Multi-Head Attention)
  • 前馈网络 FFN
  • 层归一化、残差连接举例:GPT 只用 Decoder 单向结构;BERT 只用 Encoder 双向结构。

2. 自注意力机制(Self-Attention)原理?

:通过 Q、K、V 三个矩阵计算每个词对其他词的权重。公式:Attention(Q,K,V)=softmax(dk​​QKT​)V举例:句子 “苹果公司发布新品”,注意力会让 “苹果” 和 “公司” 权重更高,避免歧义。

3. 为什么要除以√d_k?

:防止维度 d_k 过大时,点积结果方差爆炸,softmax 趋向饱和,梯度消失。举例:d=512 时 √d≈22.6,不除会导致大部分权重接近 0/1,训练不动。

4. 多头注意力是什么?为什么有用?

:把 QKV 切成多组,并行学习不同类型的依赖关系(句法、语义、指代等)。举例

  • 头 1:学主谓宾结构
  • 头 2:学指代关系(it→苹果)
  • 头 3:学上下文关联最终拼接增强表达能力。

5. 位置编码(Positional Encoding)为什么需要?

:Transformer 无时序结构,必须显式注入位置信息。举例:“我打他” 和 “他打我” 语义完全相反,必须靠位置编码区分顺序。

6. 相对位置编码 vs 绝对位置编码?

  • 绝对:给每个位置固定编码(Transformer 原版)
  • 相对:建模token 之间距离,泛化更强举例:RoPE、ALiBi 都是相对位置,支持外推更长文本。

7. GPT 架构为什么是 Decoder-only?

:使用掩码自注意力,只能看到前面 token,适合自回归生成。举例:输入 “今天天气”,模型只能根据前文生成后续内容。

8. BERT 与 GPT 的核心区别?

  • BERT:Encoder-only,双向注意力,MLM 预训练,擅长理解
  • GPT:Decoder-only,单向注意力,AR 生成,擅长创作举例:BERT 做文本分类;GPT 做对话、写作。

二、预训练 & 微调篇(8 题)

9. 什么是预训练、微调、Prompt Tuning?

  • 预训练:海量无标注数据学通用语言规律
  • 微调:用下游任务数据微调全部 / 部分参数
  • Prompt Tuning:冻结大模型,只训练少量提示向量举例:ChatGPT 先预训练,再 SFT,再 RLHF。

10. 什么是 SFT(有监督微调)?

:用人工标注的〈输入,输出〉对,微调模型使其遵循指令。举例:给模型 10 万条问答对,让它学会按要求回答。

11. RLHF 是什么?三阶段流程?

:基于人类反馈的强化学习,让模型更对齐人类偏好。流程:

  1. 预训练基座
  2. SFT 监督微调
  3. 训练奖励模型 RM
  4. PPO 强化学习优化举例:ChatGPT、文心一言都用 RLHF。

12. PPO 核心思想?

:近端策略优化,限制更新步长,防止训练崩坏、奖励过度优化。举例:模型回答不能为了高分而胡说八道。

13. DPO 对比 PPO 优势?

:DPO 直接优化偏好对,不需要奖励模型,更稳、更快、更省资源。举例:现在开源模型如 Zephyr、Qwen 普遍优先 DPO。

14. 什么是 LoRA?为什么高效微调?

:低秩自适应,在 Transformer 线性层旁插入小秩分解矩阵。

  • 只训练 0.1%~1% 参数
  • 不破坏原模型能力举例:7B 模型全量微调需 26G 显存,LoRA 只需 8G 左右。

15. LoRA 插在哪些层效果最好?

Query 和 Value 投影层举例:Llama、Qwen 官方配置都只在 q_proj、v_proj 加 LoRA。

16. 全参数微调 vs LoRA vs QLoRA?

  • 全量:效果最好,显存爆炸
  • LoRA:效果接近全量,显存友好
  • QLoRA:4/8 比特量化 + LoRA,消费级显卡可训举例:个人 24G 4090 用 QLoRA 可训 70B 模型。

三、架构与模型家族篇(6 题)

17. Llama 系列核心改进?

  • RMSNorm 替代 LayerNorm
  • SwiGLU 激活
  • 多头注意力 Grouped-Query Attention
  • RoPE 位置编码举例:Llama-2 7B/13B/70B 成为开源基座标杆。

18. 什么是 GQA/MQA?解决什么问题?

  • MQA:多查询注意力,多组共享一套 KV
  • GQA:分组查询,平衡速度与效果作用:大幅降低推理显存占用,提升长文本速度。举例:Llama-2 70B、GPT-4 都用 GQA。

19. 什么是 MoE 架构?

:混合专家,每个 token 只激活部分专家层。举例

  • GPT-4
  • Mixtral 8x7B
  • Qwen-MoE优点:大参数量、低成本推理。

20. 什么是长上下文窗口扩展?外推方法?

:让模型支持更长文本(如 128k → 1M)。方法:

  • RoPE 外推(NTK、Dynamic NTK)
  • ALiBi
  • Sliding Window Attention举例:Claude 3 支持 200k+,GPT-4 Turbo 128k。

21. KV Cache 是什么?为什么推理必备?

:缓存历史 token 的 KV,避免重复计算,生成速度提升 10~100 倍举例:生成 1000 词时,前 999 个 KV 直接复用。

22. 什么是 speculative decoding(推测解码)?

:用小模型快速猜若干 token,大模型验证接受,提速 2~3 倍。举例:GPT-4、Gemini 都使用该技术。


四、推理 & 部署 & 量化篇(6 题)

23. LLM 推理为什么慢?

  • 自回归串行生成
  • KV Cache 占显存
  • 矩阵计算大
  • 长文本注意力复杂度 O (n²)举例:生成 1 个 token 要做一次前向传播。

24. 模型量化是什么?INT4/INT8 原理?

:把 FP16/FP32 权重映射到低比特整数,压缩显存、加速推理举例:7B 模型 FP16 占 13GB,INT4 只需 3.5GB。

25. AWQ、GPTQ、GGUF 区别?

  • GPTQ:静态量化,推理快
  • AWQ:感知权重重要性,效果更优
  • GGUF:GGML 格式,适合 CPU 本地运行举例:本地跑大模型常用 GGUF;服务端用 GPTQ/AWQ。

26. 什么是 vLLM?PagedAttention 原理?

  • vLLM 是高吞吐推理引擎
  • PagedAttention 把 KV 分页管理,解决内存碎片举例:吞吐量比 HuggingFace 高 10~20 倍。

27. 什么是张量并行、流水线并行?

  • 张量并行:单层切多卡
  • 流水线并行:层间切多卡
  • 3D 并行:张量 + 流水线 + 数据并行举例:70B 模型必须多卡并行才能跑。

28. 如何优化 LLM 推理时延?

  • KV Cache
  • 量化 INT4/INT8
  • GQA/MQA
  • PagedAttention
  • 推测解码
  • 动态批处理

五、RAG 检索增强生成篇(4 题)

29. RAG 是什么?解决什么问题?

:检索增强生成,从外部知识库检索相关片段送入模型。解决:

  • 知识过时
  • 幻觉
  • 隐私数据无法预训练举例:企业内部问答系统必用 RAG。

30. RAG 经典流程?

  1. 文档切分(Chunk)
  2. 向量化 Embedding
  3. 建向量库
  4. 用户查询向量化
  5. 检索 Top-K
  6. 构造 Prompt 生成答案举例:LangChain + Chroma + Qwen 实现 RAG。

31. 如何解决 RAG 幻觉?

  • 高质量 chunk 切分
  • 多路召回(向量 + 关键词)
  • 重排模型 Rerank
  • 引用溯源
  • 限制模型只使用检索材料举例:bge-reranker 大幅提升准确率。

32. 什么是 HyDE?

:假设文档嵌入,先生成伪文档再检索,提升稀疏问题召回。举例:用户问 “怎么优化大模型?”,先生成一段相关段落再检索。


六、评估 & 幻觉 & 安全篇(4 题)

33. LLM 幻觉是什么?成因?

:模型编造看似合理但错误的信息。成因:

  • 训练数据噪声
  • 知识冲突
  • 生成偏好强于事实
  • 长文本丢失信息举例:编造不存在的论文、法规、数据。

34. 如何减少幻觉?

  • RAG 检索增强
  • SFT + DPO/RLHF
  • 事实校验工具
  • 引用强制机制
  • 少样本 + CoT举例:让模型 “先检索再回答”。

35. LLM 常见评估指标?

  • 生成:BLEU、ROUGE、Perplexity
  • 对齐:MT-Bench、AlpacaEval
  • 事实性:TruthfulQA
  • 代码:HumanEval、MBPP举例:MT-Bench 是对话模型通用榜单。

36. 大模型 alignment(对齐)是什么?

:让模型行为符合人类意图:有用、诚实、无害、合规。技术:

  • SFT
  • RLHF/DPO
  • 安全护栏
  • 红队测试举例:拒绝违法、暴力、色情内容。