首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
算法面试指南
aicoting
创建于2025-12-02
订阅专栏
包含机器学习,深度学习,大模型,AI等高频面试题以及对应回答范式
等 3 人订阅
共40篇文章
创建于2025-12-02
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
机器学习入门概述一览
机器学习(Machine Learning, ML)是人工智能(AI)的核心分支之一,其目标是通过数据驱动的方法使计算机系统能够自动学习规律,从而在没有显式编程的情况下完成预测、分类、决策和优化等任务
激活函数有什么用?有哪些常用的激活函数?
在深度学习中,激活函数(Activation Function)是神经网络的灵魂。它不仅赋予网络非线性能力,还决定了训练的稳定性和模型性能。那么,激活函数到底是什么?为什么我们非用不可?
Self-Attention 为什么要做 QKV 的线性变换?又为什么要做 Softmax?
在看 Transformer 的 self-attention 结构时,很多人第一次见到 ( Q, K, V ) 三个矩阵都会有点疑惑: 明明输入就是一个向量序列,为什么还要多此一举做三次线性变换?
Transformer 中为什么用LayerNorm而不用BatchNorm?
无论是 BERT、GPT 还是 ViT,几乎都不用 Batch Normalization,而是清一色地用 Layer Normalization,这是为什么呢?
线性回归VS逻辑回归,预测工资还是脱单率?
统计回归分析是大数据时代的扫地僧,但线性回归(Linear Regression)和逻辑回归(Logistic Regression)这对名字高度相似的孪生兄弟,却在数学模型的江湖中有着天差地别的应用
面试官:你了解线性回归吗?它的损失函数是什么?
面试官:你了解线性回归吗?它的损失函数是什么? 看到这个问题你是不是不屑于回答,因为线性回归是机器学习里最基础的模型之一,但你现在想一下真的能很好的回答这个问题吗?
面试官:为什么需要量化,为什么 int4 _ int8 量化后大模型仍能保持性能?
面试官:说一下什么是量化,为什么将大语言模型从 FP16 量化到 int8 甚至 int4,性能仍然能保持得很好?
面试官:大模型对齐中的 RLHF 与 DPO有什么本质区别?为何 DPO 能替代 RLHF?
这道题其实是面试官想看你是否真的理解大模型安全对齐(Alignment)背后的优化逻辑。 我们都知道这两个词看起来都跟“让模型更听话”有关,但它们在原理、流程和优化目标上,差别非常关键。
面试官:多模态指令微调(Instruction Tuning)如何统一不同模态的输出空间?
如果面试的时候面试官问你“多模态指令微调是怎么做到统一不同模态的输出空间的?”,你会回答嘛?这个问题听起来有点玄,但其实它正好卡在“大模型落地”与“多模态理解”的交汇点上。
面试官:Vision-Language 模型中,如何实现跨模态特征对齐?CLIP 与 BLIP 的主要区别?
这道题表面上问“特征对齐”,其实考察的是你对多模态表示学习(Multimodal Representation Learning)的理解深度。
面试官:多模态 Transformer 如何处理不同模态的序列长度差异?
这其实是一个非常典型、但又容易被忽略的问题。很多人知道 CLIP、BLIP、Flamingo、LLaVA 这些模型“能理解图文”,但很少去想图像是一张二维矩阵,文本是一串一维 token 序列.
面试官:KV Cache 了解吗?推理阶段 KV Cache 的复用原理?动态批处理如何提升吞吐?
这道题可以说是大模型推理面试的保留项目。 很多人一听就说:“我知道啊,KV Cache 是缓存 Key/Value 的东西,用来加速推理。”但真要问到怎么复用、为什么能复用、系统怎么批处理,大多数人就
面试官:FlashAttention 的实现原理与内存优化方式?为什么能做到 O(N²) attention 的显存线性化?
如果你最近刷到过“FlashAttention”,那你一定见过那句经典介绍:“它让传统 O(N²) 的 Attention,显存占用变成 O(N)。”
面试官:大模型中的幻觉本质原因是什么?如何通过训练或推理手段抑制?
面试官:你觉得大模型的幻觉(Hallucination)是怎么产生的?能不能从原理上讲讲?那我们又该如何去抑制? 别小看这问题,几乎所有大模型都被幻觉困扰——从 ChatGPT 到多模态模型.
面试官:深层网络梯度消失的根本原因是什么?除了 ResNet,还有哪些架构能有效缓解?
面试官:深层网络梯度消失的根本原因是什么?除了 ResNet,还有哪些架构能有效缓解? 这题是典中典。很多人听到梯度消失就背一句——因为深度太深,但很少有人真能把原因讲透、机制解释清、改进方案说全。
面试官:BatchNorm、LayerNorm、GroupNorm、InstanceNorm 有什么本质区别?
面试官:你能讲讲 BatchNorm、LayerNorm、GroupNorm、 InstanceNorm 有什么本质区别吗? 很多同学肯定对这三个方法都很熟悉,但是一时间竟然不知道该怎么组织语言回答
面试官:为什么 Adam 在部分任务上会比 SGD 收敛更快,但泛化性更差?如何改进?
面试官:“你觉得 Adam 为什么比 SGD 收敛更快?那为什么 Adam 泛化性往往不如 SGD?有没有改进方法?” 这问题听着简单,但要答得漂亮得兼顾数学理解 + 经验分析 + 改进思路。
面试官:Transformer如何优化到线性级?
面试官:我们来聊聊Transformer吧,Transformer的复杂度为什么这么高?有什么办法能优化到线性级吗? 面对这种原理与优化问题,其实都是有模板的,下面我们来看一看该怎么回答。
面试官:模型剪枝了解吗?解释一下结构化剪枝与非结构化剪枝
面试官:“剪枝了解吗?那你能说说结构化剪枝和非结构化剪枝的区别吗?” 剪枝虽然是老话题,但如果你真能讲清楚它的核心思想 + 工程取舍,那还是比较难的,所以今天我们就来彻底梳理一下这个问题。
面试官:模型的量化了解吗?解释一下非对称量化与对称量化
面试官:“你了解量化(Quantization)吗?能解释一下非对称量化和对称量化的区别吗?” 老实说,这个问题真挺有代表性。它既考基础理解,也看你对模型部署有没有实战经验。