算法面试指南

算法面试指南

算法面试指南

包含机器学习，深度学习，大模型，AI等高频面试题以及对应回答范式

等 3 人订阅共40篇文章创建于2025-12-02

机器学习入门概述一览

机器学习（Machine Learning, ML）是人工智能（AI）的核心分支之一，其目标是通过数据驱动的方法使计算机系统能够自动学习规律，从而在没有显式编程的情况下完成预测、分类、决策和优化等任务

5月前
189
点赞
评论

激活函数有什么用？有哪些常用的激活函数？

在深度学习中，激活函数（Activation Function）是神经网络的灵魂。它不仅赋予网络非线性能力，还决定了训练的稳定性和模型性能。那么，激活函数到底是什么？为什么我们非用不可？

5月前
332
1
评论

激活函数有什么用？有哪些常用的激活函数？

Self-Attention 为什么要做 QKV 的线性变换？又为什么要做 Softmax？

在看 Transformer 的 self-attention 结构时，很多人第一次见到 ( Q, K, V ) 三个矩阵都会有点疑惑：明明输入就是一个向量序列，为什么还要多此一举做三次线性变换？

5月前
319
点赞
评论

Self-Attention 为什么要做 QKV 的线性变换？又为什么要做 Softmax？

Transformer 中为什么用LayerNorm而不用BatchNorm？

无论是 BERT、GPT 还是 ViT，几乎都不用 Batch Normalization，而是清一色地用 Layer Normalization，这是为什么呢？

5月前
236
点赞
评论

Transformer 中为什么用LayerNorm而不用BatchNorm？

线性回归VS逻辑回归，预测工资还是脱单率？

统计回归分析是大数据时代的扫地僧，但线性回归（Linear Regression）和逻辑回归（Logistic Regression）这对名字高度相似的孪生兄弟，却在数学模型的江湖中有着天差地别的应用

6月前
103
点赞
评论

线性回归VS逻辑回归，预测工资还是脱单率？

面试官：你了解线性回归吗？它的损失函数是什么？

面试官：你了解线性回归吗？它的损失函数是什么？看到这个问题你是不是不屑于回答，因为线性回归是机器学习里最基础的模型之一，但你现在想一下真的能很好的回答这个问题吗?

6月前
70
点赞
评论

面试官：你了解线性回归吗？它的损失函数是什么？

面试官：为什么需要量化，为什么 int4 _ int8 量化后大模型仍能保持性能？

面试官：说一下什么是量化，为什么将大语言模型从 FP16 量化到 int8 甚至 int4，性能仍然能保持得很好？

6月前
237
点赞
评论

面试官：为什么需要量化，为什么 int4 _ int8 量化后大模型仍能保持性能？

面试官：大模型对齐中的 RLHF 与 DPO有什么本质区别？为何 DPO 能替代 RLHF？

这道题其实是面试官想看你是否真的理解大模型安全对齐（Alignment）背后的优化逻辑。我们都知道这两个词看起来都跟“让模型更听话”有关，但它们在原理、流程和优化目标上，差别非常关键。

6月前
384
点赞
评论

面试官：大模型对齐中的 RLHF 与 DPO有什么本质区别？为何 DPO 能替代 RLHF？

面试官：多模态指令微调（Instruction Tuning）如何统一不同模态的输出空间？

如果面试的时候面试官问你“多模态指令微调是怎么做到统一不同模态的输出空间的？”，你会回答嘛？这个问题听起来有点玄，但其实它正好卡在“大模型落地”与“多模态理解”的交汇点上。

6月前
106
点赞
评论

面试官：多模态指令微调（Instruction Tuning）如何统一不同模态的输出空间？

面试官：Vision-Language 模型中，如何实现跨模态特征对齐？CLIP 与 BLIP 的主要区别？

这道题表面上问“特征对齐”，其实考察的是你对多模态表示学习（Multimodal Representation Learning）的理解深度。

6月前
384
点赞
评论

面试官：Vision-Language 模型中，如何实现跨模态特征对齐？CLIP 与 BLIP 的主要区别？

面试官：多模态 Transformer 如何处理不同模态的序列长度差异？

这其实是一个非常典型、但又容易被忽略的问题。很多人知道 CLIP、BLIP、Flamingo、LLaVA 这些模型“能理解图文”，但很少去想图像是一张二维矩阵，文本是一串一维 token 序列.

6月前
120
点赞
评论

面试官：多模态 Transformer 如何处理不同模态的序列长度差异？

面试官：KV Cache 了解吗？推理阶段 KV Cache 的复用原理？动态批处理如何提升吞吐？

这道题可以说是大模型推理面试的保留项目。很多人一听就说：“我知道啊，KV Cache 是缓存 Key/Value 的东西，用来加速推理。”但真要问到怎么复用、为什么能复用、系统怎么批处理，大多数人就

6月前
364
点赞
评论

面试官：KV Cache 了解吗？推理阶段 KV Cache 的复用原理？动态批处理如何提升吞吐？

面试官：FlashAttention 的实现原理与内存优化方式？为什么能做到 O(N²) attention 的显存线性化？

如果你最近刷到过“FlashAttention”，那你一定见过那句经典介绍：“它让传统 O(N²) 的 Attention，显存占用变成 O(N)。”

6月前
232
点赞
评论

面试官：FlashAttention 的实现原理与内存优化方式？为什么能做到 O(N²) attention 的显存线性化？

面试官：大模型中的幻觉本质原因是什么？如何通过训练或推理手段抑制？

面试官：你觉得大模型的幻觉（Hallucination）是怎么产生的？能不能从原理上讲讲？那我们又该如何去抑制？别小看这问题，几乎所有大模型都被幻觉困扰——从 ChatGPT 到多模态模型.

6月前
372
点赞
评论

面试官：大模型中的幻觉本质原因是什么？如何通过训练或推理手段抑制？

面试官：深层网络梯度消失的根本原因是什么？除了 ResNet，还有哪些架构能有效缓解？

面试官：深层网络梯度消失的根本原因是什么？除了 ResNet，还有哪些架构能有效缓解？这题是典中典。很多人听到梯度消失就背一句——因为深度太深，但很少有人真能把原因讲透、机制解释清、改进方案说全。

6月前
139
点赞
评论

面试官：深层网络梯度消失的根本原因是什么？除了 ResNet，还有哪些架构能有效缓解？

面试官：BatchNorm、LayerNorm、GroupNorm、InstanceNorm 有什么本质区别？

面试官：你能讲讲 BatchNorm、LayerNorm、GroupNorm、 InstanceNorm 有什么本质区别吗？很多同学肯定对这三个方法都很熟悉，但是一时间竟然不知道该怎么组织语言回答

6月前
326
1
评论

面试官：BatchNorm、LayerNorm、GroupNorm、InstanceNorm 有什么本质区别？

面试官：为什么 Adam 在部分任务上会比 SGD 收敛更快，但泛化性更差？如何改进？

面试官：“你觉得 Adam 为什么比 SGD 收敛更快？那为什么 Adam 泛化性往往不如 SGD？有没有改进方法？” 这问题听着简单，但要答得漂亮得兼顾数学理解 + 经验分析 + 改进思路。

6月前
417
点赞
评论

面试官：为什么 Adam 在部分任务上会比 SGD 收敛更快，但泛化性更差？如何改进？

面试官：Transformer如何优化到线性级？

面试官：我们来聊聊Transformer吧，Transformer的复杂度为什么这么高？有什么办法能优化到线性级吗？面对这种原理与优化问题，其实都是有模板的，下面我们来看一看该怎么回答。

7月前
127
点赞
评论

面试官：Transformer如何优化到线性级？

面试官：模型剪枝了解吗？解释一下结构化剪枝与非结构化剪枝

面试官：“剪枝了解吗？那你能说说结构化剪枝和非结构化剪枝的区别吗？” 剪枝虽然是老话题，但如果你真能讲清楚它的核心思想 + 工程取舍，那还是比较难的，所以今天我们就来彻底梳理一下这个问题。

6月前
170
点赞
评论

面试官：模型剪枝了解吗？解释一下结构化剪枝与非结构化剪枝

面试官：模型的量化了解吗？解释一下非对称量化与对称量化

面试官：“你了解量化（Quantization）吗？能解释一下非对称量化和对称量化的区别吗？” 老实说，这个问题真挺有代表性。它既考基础理解，也看你对模型部署有没有实战经验。

6月前
145
点赞
评论

面试官：模型的量化了解吗？解释一下非对称量化与对称量化