不仅仅是面试,更是学习与回顾:
总有你喜欢和需要的
码读空间 小程序,各模块持续更新中
一、基础认知
1. 什么是大语言模型 LLM?
基于海量文本预训练、依靠Transformer架构,具备上下文理解、文本生成、逻辑推理的巨型参数语言模型。
2. 大模型和传统NLP区别
-
传统NLP:分任务建模、小样本、依赖特征工程
-
LLM:通用基座、大一统任务、Prompt驱动、海量数据预训练
3. 主流开源大模型有哪些
Llama系列、Qwen通义千问、Yi、GLM、Mistral、Phi、Baichuan百川
4. 什么是Token?
文本最小切分单元,中文1汉字≈1~2token,英文1单词≈1token,决定输入长度与计费。
5. 上下文窗口 Context Window 含义
模型一次能读取处理的最长输入+输出总长度,超出直接截断,Llama2=4096,Llama3=8192。
二、Transformer 核心原理
1. Transformer 两大核心模块
Encoder 编码器 + Decoder 解码器
2. 大模型为什么只用 Decoder?
自回归生成任务只需要单向因果注意力,仅Decoder结构推理更快、更适合文本续写。
3. 自注意力机制 Self-Attention 作用
计算文本词语之间关联权重,捕捉长距离语义依赖。
4. QKV 分别是什么
-
Q Query 查询
-
K Key 键
-
V Value 值
通过Q与K相似度打分,加权聚合V得到输出。
5. 多头注意力作用
拆分多组注意力头,并行捕捉语法、语义、语序不同维度特征。
6. 位置编码作用
Transformer无时序感知,注入词语先后顺序信息,主流:RoPE旋转位置编码。
7. RoPE 优势
相对位置编码,支持上下文长度外推,比绝对位置编码泛化更强。
三、预训练 & 训练目标
1. LLM 预训练任务
下一词预测 NSP 改为 CLM 因果语言建模,给定上文预测下一个token。
2. 预训练、微调、对齐三者区别
-
预训练:海量无标注数据,学习通用语言知识
-
微调:行业/业务标注数据,适配垂直场景
-
对齐SFT/RLHF:对齐人类意图,拒绝有害内容、贴合人类对话
3. SFT 监督微调是什么
用高质量人工对话数据训练,让模型学会遵循指令。
4. RLHF 三阶段
1)SFT指令微调
2)训练奖励模型RM打分
3)PPO强化学习优化模型输出
5. DPO 对比RLHF优势
直接偏好优化,省去奖励模型,训练更简单、成本更低、效果接近RLHF。
四、轻量化微调(必考)
1. 全量微调 vs 参数高效微调
-
全量:更新全部权重,显存极大、成本高
-
高效微调:只更新少量参数,低成本落地
2. LoRA 原理(最常问)
冻结原模型权重,插入低秩矩阵,只训练小矩阵,显存占用极低,主流微调方案。
3. LoRA 优势
显存小、训练快、不破坏原模型权重、可热插拔切换场景。
4. QLoRA 是什么
4比特量化+LoRA,单消费级显卡即可微调7B/13B大模型。
5. 常用微调方案
LoRA、QLoRA、IA3、Prefix Tuning、Prompt Tuning
五、量化推理
1. 模型量化作用
降低精度(FP16→INT8/INT4),减小显存占用、加速推理、降低部署门槛。
2. 量化等级区别
-
FP16:半精度,无损
-
INT8:轻度有损,速度快
-
INT4:极致压缩,显存最小,轻微效果损失
3. 主流推理框架
vLLM、Text Generation Inference、llama.cpp、FastGPT
4. vLLM 加速原理
PagedAttention 分页注意力,复用KV缓存,大幅提升并发吞吐。
5. KV Cache 作用
缓存历史对话注意力键值,避免重复计算,大幅提速对话。
六、RAG检索增强生成(业务面试必问)
1. 什么是RAG
检索私有知识库内容,拼接进Prompt,让大模型回答私有数据、减少幻觉。
2. RAG 完整流程
文档解析→文本切片→向量化入库→用户提问→问句向量化→相似度检索→上下文拼接Prompt→LLM生成答案
3. 文本切片难点
切片过大语义混杂,过小丢失完整语义,常用重叠切片。
4. 向量库主流选型
FAISS、Milvus、Chroma、Qdrant、ES向量检索
5. RAG 如何降低幻觉
优质切片、精准检索、重排序Rerank、 Prompt约束、事后事实校验
6. RAG 和微调怎么选
-
实时更新数据、知识库庞大:优先RAG
-
固定业务话术、风格统一、指令习惯:优先微调
七、工程部署面试题
1. 大模型部署几种方式
-
本地私有化部署
-
API调用公有模型
-
混合部署
2. 并发量大如何优化
开启KV缓存、vLLM部署、批量推理、模型量化、多卡负载均衡
3. 对话历史过长怎么处理
滑动窗口截断、摘要压缩、历史总结、分层记忆
4. 大模型常见问题
幻觉、上下文遗忘、逻辑弱、多轮一致性差、速度慢
5. 如何做模型评测
通用能力评测、业务场景人工评测、客观指标困惑度、准确率、召回率
八、场景实战题
1. 企业知识库问答怎么做?
文档拆分+向量化RAG+后处理过滤,不改动大模型权重最快落地。
2. 私人专属AI助手怎么做?
LoRA微调人设+RAG个人知识库+记忆管理。
3. 大模型输出乱码/超长重复怎么解决
设置max_new_tokens、温度temperature调低、添加停止词、正则过滤。
九、简答高频背诵版
1. 大模型训练三要素
数据、算法、算力
2. 降低大模型使用成本
量化、RAG替代微调、本地开源部署、限制生成长度
3. 温度Temperature作用
越高越随机创意,越低越严谨确定