LLM大模型高频面试题已更新不仅仅是面试，更是学习与回顾：总有你喜欢和需要的码读空间小程序，各模块持续更新中

不仅仅是面试，更是学习与回顾：

总有你喜欢和需要的

码读空间小程序，各模块持续更新中

一、基础认知

1. 什么是大语言模型 LLM？

基于海量文本预训练、依靠Transformer架构，具备上下文理解、文本生成、逻辑推理的巨型参数语言模型。

2. 大模型和传统NLP区别

传统NLP：分任务建模、小样本、依赖特征工程
LLM：通用基座、大一统任务、Prompt驱动、海量数据预训练

3. 主流开源大模型有哪些

Llama系列、Qwen通义千问、Yi、GLM、Mistral、Phi、Baichuan百川

4. 什么是Token？

文本最小切分单元，中文1汉字≈1~2token，英文1单词≈1token，决定输入长度与计费。

5. 上下文窗口 Context Window 含义

模型一次能读取处理的最长输入+输出总长度，超出直接截断，Llama2=4096，Llama3=8192。

二、Transformer 核心原理

1. Transformer 两大核心模块

Encoder 编码器 + Decoder 解码器

2. 大模型为什么只用 Decoder？

自回归生成任务只需要单向因果注意力，仅Decoder结构推理更快、更适合文本续写。

3. 自注意力机制 Self-Attention 作用

计算文本词语之间关联权重，捕捉长距离语义依赖。

4. QKV 分别是什么

Q Query 查询
K Key 键
V Value 值

通过Q与K相似度打分，加权聚合V得到输出。

5. 多头注意力作用

拆分多组注意力头，并行捕捉语法、语义、语序不同维度特征。

6. 位置编码作用

Transformer无时序感知，注入词语先后顺序信息，主流：RoPE旋转位置编码。

7. RoPE 优势

相对位置编码，支持上下文长度外推，比绝对位置编码泛化更强。

三、预训练 & 训练目标

1. LLM 预训练任务

下一词预测 NSP 改为 CLM 因果语言建模，给定上文预测下一个token。

2. 预训练、微调、对齐三者区别

预训练：海量无标注数据，学习通用语言知识
微调：行业/业务标注数据，适配垂直场景
对齐SFT/RLHF：对齐人类意图，拒绝有害内容、贴合人类对话

3. SFT 监督微调是什么

用高质量人工对话数据训练，让模型学会遵循指令。

4. RLHF 三阶段

1）SFT指令微调

2）训练奖励模型RM打分

3）PPO强化学习优化模型输出

5. DPO 对比RLHF优势

直接偏好优化，省去奖励模型，训练更简单、成本更低、效果接近RLHF。

四、轻量化微调（必考）

1. 全量微调 vs 参数高效微调

全量：更新全部权重，显存极大、成本高
高效微调：只更新少量参数，低成本落地

2. LoRA 原理（最常问）

冻结原模型权重，插入低秩矩阵，只训练小矩阵，显存占用极低，主流微调方案。

3. LoRA 优势

显存小、训练快、不破坏原模型权重、可热插拔切换场景。

4. QLoRA 是什么

4比特量化+LoRA，单消费级显卡即可微调7B/13B大模型。

5. 常用微调方案

LoRA、QLoRA、IA3、Prefix Tuning、Prompt Tuning

五、量化推理

1. 模型量化作用

降低精度（FP16→INT8/INT4），减小显存占用、加速推理、降低部署门槛。

2. 量化等级区别

FP16：半精度，无损
INT8：轻度有损，速度快
INT4：极致压缩，显存最小，轻微效果损失

3. 主流推理框架

vLLM、Text Generation Inference、llama.cpp、FastGPT

4. vLLM 加速原理

PagedAttention 分页注意力，复用KV缓存，大幅提升并发吞吐。

5. KV Cache 作用

缓存历史对话注意力键值，避免重复计算，大幅提速对话。

六、RAG检索增强生成（业务面试必问）

1. 什么是RAG

检索私有知识库内容，拼接进Prompt，让大模型回答私有数据、减少幻觉。

2. RAG 完整流程

文档解析→文本切片→向量化入库→用户提问→问句向量化→相似度检索→上下文拼接Prompt→LLM生成答案

3. 文本切片难点

切片过大语义混杂，过小丢失完整语义，常用重叠切片。

4. 向量库主流选型

FAISS、Milvus、Chroma、Qdrant、ES向量检索

5. RAG 如何降低幻觉

优质切片、精准检索、重排序Rerank、 Prompt约束、事后事实校验

6. RAG 和微调怎么选

实时更新数据、知识库庞大：优先RAG
固定业务话术、风格统一、指令习惯：优先微调

七、工程部署面试题

1. 大模型部署几种方式

本地私有化部署
API调用公有模型
混合部署

2. 并发量大如何优化

开启KV缓存、vLLM部署、批量推理、模型量化、多卡负载均衡

3. 对话历史过长怎么处理

滑动窗口截断、摘要压缩、历史总结、分层记忆

4. 大模型常见问题

幻觉、上下文遗忘、逻辑弱、多轮一致性差、速度慢

5. 如何做模型评测

通用能力评测、业务场景人工评测、客观指标困惑度、准确率、召回率

八、场景实战题

1. 企业知识库问答怎么做？

文档拆分+向量化RAG+后处理过滤，不改动大模型权重最快落地。

2. 私人专属AI助手怎么做？

LoRA微调人设+RAG个人知识库+记忆管理。

3. 大模型输出乱码/超长重复怎么解决

设置max_new_tokens、温度temperature调低、添加停止词、正则过滤。

九、简答高频背诵版

1. 大模型训练三要素

数据、算法、算力

2. 降低大模型使用成本

量化、RAG替代微调、本地开源部署、限制生成长度

3. 温度Temperature作用

越高越随机创意，越低越严谨确定