大模型面试题讲解

144 阅读5分钟

大模型面试题讲解

涵盖大模型架构、训练、部署、优化、RAG等热门核心知识点。每道题都配有详细讲解和参考答案

✅ 第1题:什么是Transformer架构?它是如何实现长距离依赖建模的?

参考答案:

Transformer是一种基于**自注意力机制(Self-Attention)**的深度学习模型架构,首次由《Attention is All You Need》提出。相比RNN/CNN等模型,Transformer在并行性、长距离依赖建模方面有显著优势。

其核心结构包括:

  • 输入嵌入 + 位置编码
  • 多头自注意力机制(Multi-Head Self-Attention)
  • 前馈神经网络(Feed Forward Network)
  • 残差连接 + LayerNorm

长距离依赖建模的关键: 通过自注意力机制,输入序列中的每个位置都可以直接关注(attend)到任意其他位置的信息,这解决了RNN中“梯度衰减”带来的远程依赖难题。


✅ 第2题:大语言模型的Token是怎么生成的?为什么是计算的核心单位?

参考答案:

在大模型中,“Token”是将文本进行子词(subword)级别分割后的基本单位。

例如句子:“我爱大语言模型”可能被切分为 [我, 爱, 大, 语言, 模, 型],每个token会映射为一个 token ID,作为输入传入模型。

大模型的核心任务就是对一串token进行预测 —— 给定前n个token,预测下一个token。这个过程在推理时逐个生成,在训练时使用语言建模的目标函数(如交叉熵)。

所以我们说:大模型就是一个“续写Token的预测机器”。


✅ 第3题:什么是预训练(Pretraining)和微调(Fine-tuning)的区别?

参考答案:

  • 预训练(Pretraining):使用海量无监督的文本数据,让模型掌握语言知识与世界知识。本质任务通常是自监督的,比如自回归语言建模(GPT)或掩码语言建模(BERT)。

  • 微调(Fine-tuning):在预训练模型的基础上,使用小规模的带标签数据集进行监督学习,让模型适配特定任务,如问答、分类、对话等。

区别总结:

项目预训练微调
数据规模TB级无标签数据MB~GB级有标签数据
目标通用能力专用能力
方法自监督学习监督学习

✅ 第4题:请解释大模型中参数数量(如175B)对模型能力的影响。什么是Scaling Law?

参考答案:

大模型中的“参数数量”通常以“B”(Billion, 十亿)为单位。参数越多,模型容量越大,理论上能捕捉更复杂的语言结构和知识。

Scaling Law(比例法则)是OpenAI等机构提出的一种经验性规律:在模型容量、训练数据量、计算量成比例增长时,模型性能会呈现幂律改进

但:

  • 不是无限增长:超出临界点会“返贫”
  • 成本会指数上升:更多显卡、更长训练时间

一句话总结:大力出奇迹,但不能瞎用力。


✅ 第5题:什么是RAG(检索增强生成)?它为什么重要?

参考答案:

RAG(Retrieval-Augmented Generation)是一种结合检索系统和大模型生成能力的机制。简单来说,就是先查资料、再作答

流程:

  1. 用户提问 → 向量化
  2. 检索相关文档(如知识库、网页等)
  3. 将检索结果拼接进prompt中
  4. 大模型生成回答

重要性:

  • 解决“幻觉问题”(Hallucination)
  • 应对知识时效性(大模型训练数据滞后)
  • 降低对模型参数中“死记硬背”的依赖

RAG是构建企业知识库问答系统AI助手的核心技术路径。


✅ 第6题:请解释MoE模型(Mixture of Experts)的工作原理及优势。

参考答案:

MoE(专家混合模型)是一种稀疏激活的模型架构。它由多个“专家子模型”组成,每次只激活其中一小部分(例如2/128个专家)。

其关键组件是 门控网络(Gating Network),它根据输入内容决定调用哪些专家。

优势:

  • 参数多但计算开销小:比如模型总参数可能1万亿,但每次只用几十亿
  • 提升推理效率,降低成本
  • 提高模型在多任务、多领域下的泛化能力

代表:Grok、DeepSeek、Google Switch Transformer等都使用了MoE结构。


✅ 第7题:如何理解RLHF(基于人类反馈的强化学习)在模型训练中的作用?

参考答案:

RLHF(Reinforcement Learning with Human Feedback) 是后训练的重要阶段,用于让大模型生成更符合人类偏好的内容。

步骤:

  1. 人类标注员给AI的多个回答进行排序
  2. 根据排序训练一个奖励模型(Reward Model)
  3. 使用强化学习算法(如PPO、GRPO)优化模型输出

作用:

  • 解决模型“答非所问”、“复读机”问题
  • 提高回答的“可用性”和“人性化”
  • 是GPT-4/DeepSeek R1等高质量输出的关键环节

✅ 第8题:大模型部署有哪些方式?PC上跑的模型跟大厂用的有什么区别?

参考答案:

大模型部署方式主要分为三类:

模型类型说明举例
满血模型完整参数部署,需要数十张GPUGPT-4, DeepSeek R1
蒸馏模型小模型模仿大模型的输出OpenChat, InternLM Chat 4B
量化模型参数精度压缩以减小体积QLoRA, GGML, INT4 模型

区别:

  • PC上部署的模型一般是“蒸馏”或“量化”版本
  • 跑得动,但性能和能力有限,不能完全代表“原厂实力”
  • 企业级部署会考虑并发、负载均衡、分布式计算等问题

更多大模型知识

搜索【码上有模力】