大模型面试题讲解
涵盖大模型架构、训练、部署、优化、RAG等热门核心知识点。每道题都配有详细讲解和参考答案
✅ 第1题:什么是Transformer架构?它是如何实现长距离依赖建模的?
参考答案:
Transformer是一种基于**自注意力机制(Self-Attention)**的深度学习模型架构,首次由《Attention is All You Need》提出。相比RNN/CNN等模型,Transformer在并行性、长距离依赖建模方面有显著优势。
其核心结构包括:
- 输入嵌入 + 位置编码
- 多头自注意力机制(Multi-Head Self-Attention)
- 前馈神经网络(Feed Forward Network)
- 残差连接 + LayerNorm
长距离依赖建模的关键: 通过自注意力机制,输入序列中的每个位置都可以直接关注(attend)到任意其他位置的信息,这解决了RNN中“梯度衰减”带来的远程依赖难题。
✅ 第2题:大语言模型的Token是怎么生成的?为什么是计算的核心单位?
参考答案:
在大模型中,“Token”是将文本进行子词(subword)级别分割后的基本单位。
例如句子:“我爱大语言模型”可能被切分为 [我, 爱, 大, 语言, 模, 型],每个token会映射为一个 token ID,作为输入传入模型。
大模型的核心任务就是对一串token进行预测 —— 给定前n个token,预测下一个token。这个过程在推理时逐个生成,在训练时使用语言建模的目标函数(如交叉熵)。
所以我们说:大模型就是一个“续写Token的预测机器”。
✅ 第3题:什么是预训练(Pretraining)和微调(Fine-tuning)的区别?
参考答案:
-
预训练(Pretraining):使用海量无监督的文本数据,让模型掌握语言知识与世界知识。本质任务通常是自监督的,比如自回归语言建模(GPT)或掩码语言建模(BERT)。
-
微调(Fine-tuning):在预训练模型的基础上,使用小规模的带标签数据集进行监督学习,让模型适配特定任务,如问答、分类、对话等。
区别总结:
| 项目 | 预训练 | 微调 |
|---|---|---|
| 数据规模 | TB级无标签数据 | MB~GB级有标签数据 |
| 目标 | 通用能力 | 专用能力 |
| 方法 | 自监督学习 | 监督学习 |
✅ 第4题:请解释大模型中参数数量(如175B)对模型能力的影响。什么是Scaling Law?
参考答案:
大模型中的“参数数量”通常以“B”(Billion, 十亿)为单位。参数越多,模型容量越大,理论上能捕捉更复杂的语言结构和知识。
Scaling Law(比例法则)是OpenAI等机构提出的一种经验性规律:在模型容量、训练数据量、计算量成比例增长时,模型性能会呈现幂律改进。
但:
- 不是无限增长:超出临界点会“返贫”
- 成本会指数上升:更多显卡、更长训练时间
一句话总结:大力出奇迹,但不能瞎用力。
✅ 第5题:什么是RAG(检索增强生成)?它为什么重要?
参考答案:
RAG(Retrieval-Augmented Generation)是一种结合检索系统和大模型生成能力的机制。简单来说,就是先查资料、再作答。
流程:
- 用户提问 → 向量化
- 检索相关文档(如知识库、网页等)
- 将检索结果拼接进prompt中
- 大模型生成回答
重要性:
- 解决“幻觉问题”(Hallucination)
- 应对知识时效性(大模型训练数据滞后)
- 降低对模型参数中“死记硬背”的依赖
RAG是构建企业知识库问答系统、AI助手的核心技术路径。
✅ 第6题:请解释MoE模型(Mixture of Experts)的工作原理及优势。
参考答案:
MoE(专家混合模型)是一种稀疏激活的模型架构。它由多个“专家子模型”组成,每次只激活其中一小部分(例如2/128个专家)。
其关键组件是 门控网络(Gating Network),它根据输入内容决定调用哪些专家。
优势:
- 参数多但计算开销小:比如模型总参数可能1万亿,但每次只用几十亿
- 提升推理效率,降低成本
- 提高模型在多任务、多领域下的泛化能力
代表:Grok、DeepSeek、Google Switch Transformer等都使用了MoE结构。
✅ 第7题:如何理解RLHF(基于人类反馈的强化学习)在模型训练中的作用?
参考答案:
RLHF(Reinforcement Learning with Human Feedback) 是后训练的重要阶段,用于让大模型生成更符合人类偏好的内容。
步骤:
- 人类标注员给AI的多个回答进行排序
- 根据排序训练一个奖励模型(Reward Model)
- 使用强化学习算法(如PPO、GRPO)优化模型输出
作用:
- 解决模型“答非所问”、“复读机”问题
- 提高回答的“可用性”和“人性化”
- 是GPT-4/DeepSeek R1等高质量输出的关键环节
✅ 第8题:大模型部署有哪些方式?PC上跑的模型跟大厂用的有什么区别?
参考答案:
大模型部署方式主要分为三类:
| 模型类型 | 说明 | 举例 |
|---|---|---|
| 满血模型 | 完整参数部署,需要数十张GPU | GPT-4, DeepSeek R1 |
| 蒸馏模型 | 小模型模仿大模型的输出 | OpenChat, InternLM Chat 4B |
| 量化模型 | 参数精度压缩以减小体积 | QLoRA, GGML, INT4 模型 |
区别:
- PC上部署的模型一般是“蒸馏”或“量化”版本
- 跑得动,但性能和能力有限,不能完全代表“原厂实力”
- 企业级部署会考虑并发、负载均衡、分布式计算等问题
更多大模型知识
搜索【码上有模力】