综合来源:CSDN 2026大厂AI面试全解析、知乎2025秋招机器学习面试题、GitHub Datawhale hello-agents参考答案库、GitHub AI-Job-Notes 等多平台资料整理。
📚 一、机器学习基础(Machine Learning Fundamentals)
这是所有 AI 岗位的必考模块,考察候选人对核心算法原理的理解深度。
常见题目:
- 偏差与方差的权衡(Bias-Variance Tradeoff)是什么?
- 什么是梯度下降?有哪些变体?
- 解释过拟合与欠拟合,如何解决?
- 什么是正则化(L1/L2)?
🔍 示例题 + 参考答案
Q:请解释偏差(Bias)与方差(Variance)的权衡,并说明如何在实际项目中处理?
【参考答案】
① 概念定义
- 偏差(Bias):模型预测值与真实值之间的系统性误差,体现模型对问题的假设是否合理。高偏差意味着模型太简单,无法捕捉数据规律 → 欠拟合。
- 方差(Variance):模型对训练集微小变化的敏感程度。高方差意味着模型过度记忆训练数据的噪声 → 过拟合。
- 不可约误差(Irreducible Noise):数据本身的噪声,无法通过模型优化消除。
② 数学分解
③ 权衡关系
| 模型复杂度 | 偏差 | 方差 | 训练误差 | 测试误差 | 结果 |
|---|---|---|---|---|---|
| 过于简单 | 高 ↑ | 低 ↓ | 高 | 高 | 欠拟合 |
| 适中 | 中 | 中 | 低 | 低 | 最优 ✅ |
| 过于复杂 | 低 ↓ | 高 ↑ | 极低 | 高 | 过拟合 |
④ 实际解决方案
-
高偏差(欠拟合):
- 增加模型复杂度(更深的网络、更多特征)
- 减少正则化强度
- 使用更强的基模型(如 XGBoost 替换线性模型)
-
高方差(过拟合):
- 增加训练数据量
- 添加 Dropout、L1/L2 正则化
- 使用 Bagging 集成(如随机森林)
- Early Stopping
-
工程实践:使用 K 折交叉验证 绘制学习曲线,直观判断当前处于欠拟合还是过拟合状态,再针对性调整。
🔍 附加示例题 + 参考答案
Q:L1 正则化与 L2 正则化有什么区别?各自适用什么场景?
【参考答案】
① 数学形式
② 核心区别
| 维度 | L1 正则化 | L2 正则化 |
|---|---|---|
| 惩罚形式 | 权重绝对值之和 | 权重平方和 |
| 稀疏性 | ✅ 产生稀疏解(部分权重为 0) | ❌ 权重趋近于 0 但不为 0 |
| 特征选择 | ✅ 自动进行特征选择 | ❌ 保留所有特征 |
| 对异常值 | 较鲁棒 | 敏感 |
| 适用场景 | 高维稀疏特征(NLP词袋) | 特征间存在共线性 |
③ 直觉理解:L1 的等高线是菱形,解容易落在坐标轴上(稀疏);L2 的等高线是圆形,解均匀压缩所有权重。
🧠 二、深度学习(Deep Learning)
深度学习是 AI 算法岗核心考察方向,涵盖神经网络结构、训练技巧和优化方法。
常见题目:
- Transformer 的自注意力机制原理?
- BatchNorm 和 LayerNorm 的区别?
- 梯度消失/爆炸问题如何解决?
- CNN、RNN、Transformer 各自适用场景?
🔍 示例题 + 参考答案
Q:请详细解释 Transformer 中的 Self-Attention 机制,并写出计算公式。
【参考答案】
① 核心动机
RNN 处理序列时存在长距离依赖衰减问题,且无法并行。Self-Attention 让序列中每个位置都能直接关注所有其他位置,一步解决两个问题。
② 计算步骤
Step 1: 将输入 通过三个可学习矩阵映射为 Q、K、V:
Step 2: 计算注意力分数并缩放(防止点积过大导致 softmax 梯度消失):
Step 3: Multi-Head Attention 并行运行 h 个注意力头,捕捉不同子空间的语义:
③ 复杂度分析
- 时间复杂度:,其中 为序列长度
- 这也是长序列场景(如 100K tokens)的性能瓶颈,催生了 FlashAttention、Sparse Attention 等优化方案
④ 与 RNN 对比
| 维度 | RNN | Self-Attention |
|---|---|---|
| 并行化 | ❌ 顺序计算 | ✅ 完全并行 |
| 长距离依赖 | 弱(梯度衰减) | 强(直接连接) |
| 计算复杂度 | ||
| 适用场景 | 短序列、流式数据 | 长文本、翻译、生成 |
🗣️ 三、自然语言处理(NLP)
NLP 方向从传统文本处理到大语言模型均有涉及,是当前最热门的考察方向之一。
常见题目:
- BERT 和 GPT 的架构区别?
- 什么是 RAG(检索增强生成)?
- BPE 分词原理?
- 如何评估语言模型?
🔍 示例题 + 参考答案
Q:解释 RAG(Retrieval-Augmented Generation)的工作原理,以及如何评估一个 RAG 流水线的性能?
【参考答案】
① RAG 的动机
纯 LLM 存在两大问题:知识截止日期(无法获取最新信息)和幻觉(编造不存在的事实)。RAG 通过引入外部知识库检索,将"记忆"与"推理"解耦。
② 完整工作流程
离线阶段(索引构建):
文档 → 分块(Chunking)→ Embedding 向量化 → 存入向量数据库
在线阶段(查询):
用户提问 → Query Embedding → 向量检索 Top-K
→ Reranker 重排序 → 拼接 Prompt → LLM 生成答案
③ 关键组件选型
| 组件 | 作用 | 推荐工具 |
|---|---|---|
| Embedding 模型 | 文本向量化 | BGE-M3, text-embedding-3-large |
| 向量数据库 | 存储与近似检索 | Milvus, Qdrant, FAISS |
| Reranker | 精排检索结果 | BGE-Reranker, Cohere Rerank |
| LLM | 生成最终答案 | GPT-4o, Claude 3.5, Qwen2.5 |
④ 评估指标(RAGAS 框架)
- Faithfulness(忠实度):答案是否完全基于检索到的上下文,不产生幻觉
- Answer Relevancy(答案相关性):答案是否切题
- Context Recall(上下文召回率):检索到的文档是否包含回答所需信息
- Context Precision(上下文精确率):检索结果中有多少是真正有用的
⑤ 常见优化手段
- 混合检索(向量检索 + BM25 关键词检索)提升召回率
- HyDE(假设文档嵌入):先让 LLM 生成假设答案再检索
- 查询改写(Query Rewriting):将用户问题扩展为多个子查询
🤖 四、大语言模型(LLM)专项
这是 2025-2026 年最核心的新兴考察方向,重点考察对 LLM 原理和工程实践的掌握。
常见题目:
- RLHF 训练流程是什么?
- 大模型分布式训练:数据并行、模型并行、流水线并行?
- KV Cache 的原理与作用?
- 如何做大模型微调(SFT、LoRA、QLoRA)?
🔍 示例题 + 参考答案
Q:请对比 LoRA 和全量微调(Full Fine-tuning)的区别,LoRA 的原理是什么?
【参考答案】
① 全量微调的问题
- 需要更新模型所有参数(7B 模型约 28GB 梯度显存)
- 多任务时需保存多份完整模型副本,存储成本极高
- 容易导致灾难性遗忘(Catastrophic Forgetting)
② LoRA 核心原理
核心假设:预训练模型的权重更新矩阵 具有低内在秩(Low Intrinsic Rank)。
因此可以用两个小矩阵的乘积来近似:
其中:
- — 冻结的预训练权重
- , — 可训练的低秩矩阵
- 秩 (通常取 4~64)
训练时:只更新 A 和 B, 完全冻结 推理时:将 合并回 ,零额外推理延迟
③ 参数量对比(以 7B 模型为例)
④ 全面对比
| 维度 | 全量微调 | LoRA | QLoRA |
|---|---|---|---|
| 可训练参数量 | 100% | ~0.5% | ~0.5% |
| 显存需求(7B) | ~80GB | ~16GB | ~6GB |
| 训练速度 | 基准 | 快 3-5x | 快 3-5x |
| 模型效果 | 最优 | 接近全量 | 略低于LoRA |
| 基础模型量化 | ❌ | ❌ | ✅ 4-bit |
| 适用场景 | 资源充足 | 常规微调 | 消费级GPU |
⑤ 实践建议
- 秩 选择:任务越复杂, 越大;通常从 8 或 16 开始实验
- 应用位置:通常对 Attention 的 Q、V 矩阵应用 LoRA,效果最佳
- Alpha 参数: 控制 LoRA 更新的缩放比例,常设
👁️ 五、计算机视觉(Computer Vision)
CV 方向考察图像处理、目标检测、分割等经典与前沿技术。
常见题目:
- CNN 的卷积操作原理?感受野如何计算?
- YOLO 系列目标检测的演进?
- Vision Transformer(ViT)与 CNN 的对比?
- 数据增强有哪些常用方法?
🔍 示例题 + 参考答案
Q:解释 YOLO 目标检测的核心思想,与两阶段检测器(如 Faster R-CNN)有何区别?
【参考答案】
① 两阶段检测器(Two-Stage Detector)流程
输入图像
→ RPN(Region Proposal Network)生成 ~2000 个候选框
→ ROI Pooling 提取每个候选框特征
→ 分类头 + 回归头 精细化预测
- 优点:精度高,对小目标友好
- 缺点:两阶段串行,速度慢(5~10 FPS)
② YOLO 单阶段思想
将目标检测视为回归问题,一次前向传播同时预测所有目标:
- 将图像划分为 网格(如 7×7)
- 每个网格预测 个 bounding box,每个 box 包含:
- 位置:
- 置信度:
- 同时预测 个类别概率
③ 版本演进与核心创新
| 版本 | 核心创新 | 速度 | 精度 |
|---|---|---|---|
| YOLOv1 (2016) | 单阶段检测思想 | 45 FPS | 63.4 mAP |
| YOLOv3 (2018) | 多尺度预测、Darknet-53 | 30 FPS | 大幅提升 |
| YOLOv5 (2020) | CSP结构、自动锚框、PyTorch实现 | 快 | 高 |
| YOLOv8 (2023) | Anchor-Free、解耦检测头 | 更快 | 更高 |
| YOLOv11 (2024) | 优化骨干、更少参数 | 实时 | SOTA |
④ 关键概念:IoU(交并比)
NMS(非极大值抑制)利用 IoU 去除重复检测框,是 YOLO 后处理的核心步骤。
⑤ 面试加分点
- Anchor-Free 检测(YOLOv8+)避免了手工设计锚框的麻烦,泛化性更强
- 在自动驾驶、工业质检等实时场景,YOLO 是首选方案
- 与 Transformer-based 检测器(DETR)相比,YOLO 推理速度仍有显著优势
💼 六、AI 系统设计与工程(System Design)
面向高级岗位,考察候选人将 AI 模型落地为实际系统的能力。
常见题目:
- 如何设计一个推荐系统?
- 模型部署时如何做性能优化(量化、蒸馏、剪枝)?
- 如何监控线上 AI 模型的健康状态?
- 设计一个实时对话 AI 系统的架构?
🔍 示例题 + 参考答案
Q:请设计一个企业级 RAG 知识库问答系统的完整架构,并说明每个模块的设计决策。
【参考答案】
① 系统整体架构
┌─────────────────────────────────────────────────┐
│ 用户端(Web/App) │
└──────────────────────┬──────────────────────────┘
↓
┌─────────────────────────────────────────────────┐
│ API Gateway + 鉴权 + 限流 │
└──────────┬───────────────────────┬──────────────┘
↓ ↓
┌───────────────┐ ┌───────────────────┐
│ 检索服务 │ │ 生成服务 │
│ Embedding │ │ LLM Inference │
│ + 混合检索 │ │ (vLLM/TGI) │
│ + Reranker │ └────────┬──────────┘
└───────┬───────┘ ↓
↓ ┌───────────────────┐
┌───────────────┐ │ 后处理 + 引用 │
│ 向量数据库 │ │ 溯源 + 安全过滤 │
│ (Milvus) │ └───────────────────┘
└───────────────┘
↑
┌───────────────┐
│ 离线索引管道 │
│ 文档→分块→ │
│ 向量化→入库 │
└───────────────┘
② 各模块关键设计决策
文档处理层:
- 分块策略:按语义段落分块(512
1024 tokens),保留 1020% 重叠避免上下文截断 - 元数据保留:每个 chunk 附带来源文档、页码、时间戳,用于引用溯源
检索层:
- 混合检索 = 向量检索(语义)+ BM25(关键词),取并集后 Reranker 精排
- 向量检索召回率高但精确率低;BM25 对专有名词、数字更精确;两者互补
生成层:
- Prompt 模板强制 LLM 基于上下文回答,拒绝超出知识库范围的问题
- 流式输出(Streaming)降低用户感知延迟
③ 性能与可靠性设计
| 维度 | 方案 |
|---|---|
| 延迟优化 | 向量检索 < 50ms,LLM 流式输出首 token < 500ms |
| 高可用 | 向量库主从复制,LLM 多实例负载均衡 |
| 监控指标 | 检索命中率、答案忠实度、用户满意度评分、P99 延迟 |
| 安全防护 | Prompt Injection 检测、敏感信息过滤、输出内容审核 |
④ 面试加分点
- 主动提出冷启动问题:知识库初期数据少时如何保证回答质量(降级策略)
- 讨论增量更新:文档更新时如何高效更新向量索引而不全量重建
- 提到评估闭环:收集用户反馈 → 标注错误案例 → 持续优化检索和生成
📊 七、面试题类别总览
以下是完整的分类速查表,可作为备考路线图使用:
| 类别 | 核心考点 | 适用岗位 | 难度 | 备考优先级 |
|---|---|---|---|---|
| 机器学习基础 | 算法原理、数学推导 | 所有 AI 岗 | ⭐⭐ | 🔴 必备 |
| 深度学习 | 网络结构、训练技巧 | 算法工程师 | ⭐⭐⭐ | 🔴 必备 |
| NLP / 大模型 | Transformer、LLM、RAG | NLP/LLM 工程师 | ⭐⭐⭐⭐ | 🔴 必备 |
| 计算机视觉 | CNN、检测、分割 | CV 工程师 | ⭐⭐⭐ | 🟡 按方向 |
| 系统设计 | 架构、部署、监控 | 高级/资深工程师 | ⭐⭐⭐⭐⭐ | 🟡 高级岗 |
| 编程实现 | 手写算法、代码调试 | 所有技术岗 | ⭐⭐⭐ | 🔴 必备 |
💡 备考建议
- 数学基础扎实:概率论、线性代数、凸优化是一切的根基,参考答案中的公式推导要能手写
- 跟紧前沿方向:2025-2026 年面试重点已明显向 LLM + RAG + Agent 倾斜,LoRA/RLHF 是高频考点
- 项目驱动回答:每个知识点结合自己的实际项目经验,比背诵定义更有说服力
- 系统思维优先:高级岗位更看重"如何设计和落地",而非单纯的算法知识;答题时主动提出 trade-off