LLM大模型高频面试题已更新

20 阅读5分钟

不仅仅是面试,更是学习与回顾:

总有你喜欢和需要的

码读空间 小程序,各模块持续更新中

 

图片

一、基础认知

 

1. 什么是大语言模型 LLM?

基于海量文本预训练、依靠Transformer架构,具备上下文理解、文本生成、逻辑推理的巨型参数语言模型。

2. 大模型和传统NLP区别

 

  • 传统NLP:分任务建模、小样本、依赖特征工程

  • LLM:通用基座、大一统任务、Prompt驱动、海量数据预训练

 

3. 主流开源大模型有哪些

Llama系列、Qwen通义千问、Yi、GLM、Mistral、Phi、Baichuan百川

4. 什么是Token?

文本最小切分单元,中文1汉字≈1~2token,英文1单词≈1token,决定输入长度与计费。

5. 上下文窗口 Context Window 含义

模型一次能读取处理的最长输入+输出总长度,超出直接截断,Llama2=4096,Llama3=8192。

 

二、Transformer 核心原理

 

1. Transformer 两大核心模块

Encoder 编码器 + Decoder 解码器

2. 大模型为什么只用 Decoder?

自回归生成任务只需要单向因果注意力,仅Decoder结构推理更快、更适合文本续写。

3. 自注意力机制 Self-Attention 作用

计算文本词语之间关联权重,捕捉长距离语义依赖。

4. QKV 分别是什么

 

  • Q Query 查询

  • K Key 键

  • V Value 值

通过Q与K相似度打分,加权聚合V得到输出。

 

5. 多头注意力作用

拆分多组注意力头,并行捕捉语法、语义、语序不同维度特征。

6. 位置编码作用

Transformer无时序感知,注入词语先后顺序信息,主流:RoPE旋转位置编码。

7. RoPE 优势

相对位置编码,支持上下文长度外推,比绝对位置编码泛化更强。

 

三、预训练 & 训练目标

 

1. LLM 预训练任务

下一词预测 NSP 改为 CLM 因果语言建模,给定上文预测下一个token。

2. 预训练、微调、对齐三者区别

 

  • 预训练:海量无标注数据,学习通用语言知识

  • 微调:行业/业务标注数据,适配垂直场景

  • 对齐SFT/RLHF:对齐人类意图,拒绝有害内容、贴合人类对话

 

3. SFT 监督微调是什么

用高质量人工对话数据训练,让模型学会遵循指令。

4. RLHF 三阶段

1)SFT指令微调

2)训练奖励模型RM打分

3)PPO强化学习优化模型输出

5. DPO 对比RLHF优势

直接偏好优化,省去奖励模型,训练更简单、成本更低、效果接近RLHF。

 

四、轻量化微调(必考)

 

1. 全量微调 vs 参数高效微调

 

  • 全量:更新全部权重,显存极大、成本高

  • 高效微调:只更新少量参数,低成本落地

 

2. LoRA 原理(最常问)

冻结原模型权重,插入低秩矩阵,只训练小矩阵,显存占用极低,主流微调方案。

3. LoRA 优势

显存小、训练快、不破坏原模型权重、可热插拔切换场景。

4. QLoRA 是什么

4比特量化+LoRA,单消费级显卡即可微调7B/13B大模型。

5. 常用微调方案

LoRA、QLoRA、IA3、Prefix Tuning、Prompt Tuning

 

五、量化推理

 

1. 模型量化作用

降低精度(FP16→INT8/INT4),减小显存占用、加速推理、降低部署门槛。

2. 量化等级区别

 

  • FP16:半精度,无损

  • INT8:轻度有损,速度快

  • INT4:极致压缩,显存最小,轻微效果损失

 

3. 主流推理框架

vLLM、Text Generation Inference、llama.cpp、FastGPT

4. vLLM 加速原理

PagedAttention 分页注意力,复用KV缓存,大幅提升并发吞吐。

5. KV Cache 作用

缓存历史对话注意力键值,避免重复计算,大幅提速对话。

 

六、RAG检索增强生成(业务面试必问)

 

1. 什么是RAG

检索私有知识库内容,拼接进Prompt,让大模型回答私有数据、减少幻觉。

2. RAG 完整流程

文档解析→文本切片→向量化入库→用户提问→问句向量化→相似度检索→上下文拼接Prompt→LLM生成答案

3. 文本切片难点

切片过大语义混杂,过小丢失完整语义,常用重叠切片。

4. 向量库主流选型

FAISS、Milvus、Chroma、Qdrant、ES向量检索

5. RAG 如何降低幻觉

优质切片、精准检索、重排序Rerank、 Prompt约束、事后事实校验

6. RAG 和微调怎么选

 

  • 实时更新数据、知识库庞大:优先RAG

  • 固定业务话术、风格统一、指令习惯:优先微调

 

七、工程部署面试题

 

1. 大模型部署几种方式

 

  • 本地私有化部署

  • API调用公有模型

  • 混合部署

 

2. 并发量大如何优化

开启KV缓存、vLLM部署、批量推理、模型量化、多卡负载均衡

3. 对话历史过长怎么处理

滑动窗口截断、摘要压缩、历史总结、分层记忆

4. 大模型常见问题

幻觉、上下文遗忘、逻辑弱、多轮一致性差、速度慢

5. 如何做模型评测

通用能力评测、业务场景人工评测、客观指标困惑度、准确率、召回率

 

八、场景实战题

 

1. 企业知识库问答怎么做?

文档拆分+向量化RAG+后处理过滤,不改动大模型权重最快落地。

2. 私人专属AI助手怎么做?

LoRA微调人设+RAG个人知识库+记忆管理。

3. 大模型输出乱码/超长重复怎么解决

设置max_new_tokens、温度temperature调低、添加停止词、正则过滤。

 

九、简答高频背诵版

 

1. 大模型训练三要素

数据、算法、算力

2. 降低大模型使用成本

量化、RAG替代微调、本地开源部署、限制生成长度

3. 温度Temperature作用

越高越随机创意,越低越严谨确定