2026 年 3 月的一个下午,有个读者私信我,说他在字节 AI 应用工程师的一面被问到了 LLM 的基础问题,结果卡住了。
「面试官问我:LLM 的核心原理是什么?RAG 和微调怎么选?我背了一堆名词,但感觉他越听越皱眉。」
这个场景太典型了。一面不是在考你背书,是在考你有没有「工程直觉」。面试官问 LLM,其实是在问:你能不能把技术翻译成产品语言?能不能在「检索质量不行」和「工具调用失败」之间,说清楚兜底方案?
为什么现在值得写?因为 AI 岗位的面试节奏正在变快。一面就是生死线,很多人还没来得及展示项目,就被八股文刷掉了。而 LLM 相关问题,恰恰是一面最高频的考点。
今天这篇,是「AI 面试八股文」系列的第一篇。我们用一道高频题,把 LLM 一面最容易被问穿的知识点,一次讲透。
问题
「请介绍一下 LLM 的核心原理,以及 RAG 和微调的区别。」
这道题看起来基础,但面试官真正想听的,不是你能不能把 Transformer 公式背出来,而是你能不能用三句话说清楚逻辑,再展开关键机制。
标准答案
先说 LLM 的核心原理。
LLM(Large Language Model)的本质,是一个「预测下一个词」的概率模型。它通过海量文本训练,学会了在给定上下文时,预测下一个最可能出现的词。这个预测能力,经过规模放大和指令微调后,涌现出了推理、对话、代码生成等能力。
关键机制有三个:
-
Transformer 架构:自注意力机制让模型能捕捉长距离依赖,不再像 RNN 那样「记不住前面说了什么」。
-
预训练 + 微调范式:先在大规模语料上预训练,学会语言规律;再在特定任务上微调,学会听人话。
-
对齐技术:RLHF、DPO 等方法让模型输出更符合人类期望,减少「一本正经胡说八道」的情况。
再说 RAG 和微调的区别。
RAG(检索增强生成)的核心思路是:在生成答案前,先从外部知识库检索相关信息,再把检索结果喂给 LLM,让它基于这些信息生成回答。相当于考试时给你一本参考书,你边翻边答。
微调(Fine-tuning)的核心思路是:在特定领域数据上继续训练模型,让模型「记住」这些知识,改变模型参数。相当于考前把知识背进脑子里。
两者的选择逻辑:
| 维度 | RAG | 微调 | |------|-----|------| | 知识更新 | 实时,改知识库就行 | 需要重新训练 | | 成本 | 低,主要是检索系统 | 高,需要算力和数据 | | 适用场景 | 知识频繁变化、需要可解释性 | 需要特定风格、领域深度 | | 典型问题 | 检索质量、召回率 | 过拟合、灾难性遗忘 |
⚠️ 踩坑提醒:面试里最容易犯的错误是把 RAG 和微调说成「二选一」。实际上,很多生产系统是两者结合的:先用 RAG 保证知识时效性,再用微调让模型学会特定领域的表达风格。
常见追问
追问 1:RAG 的检索质量不行怎么办?
这是字节面经里高频出现的问题。面试官不是在问你「有没有遇到过」,而是在问你「有没有系统性的解决思路」。
回答框架:
检索阶段优化:
-
换更好的 embedding 模型,比如从 text2vec 升级到 bge-m3
-
做查询改写,把用户问题拆成多个子查询,提升召回覆盖
-
引入混合检索,向量检索 + 关键词检索双路召回
召回阶段优化:
-
调整 chunk 大小和 overlap,别把关键信息切没了
-
做重排序,用 cross-encoder 对召回结果精排,把最相关的提到前面
生成阶段兜底:
-
在 prompt 里明确告诉模型「如果检索结果不相关,就说不知道」
-
设置置信度阈值,低于阈值时触发人工或兜底回复
追问 2:工具调用失败怎么兜底?
AI 应用工程师岗位经常会问到这个问题。面试官想看的是:你能不能把「失败」当成一个正常状态来设计,而不是假设一切顺利。
回答框架:
失败分类:
-
工具不存在或参数错误:模型生成了错误的函数调用
-
工具执行超时:外部服务响应慢或挂了
-
工具返回异常结果:返回值格式不对或内容错误
兜底策略:
-
参数错误:让 LLM 自我修正,重试一次
-
超时:设置重试次数上限,超过后降级到通用回复
-
异常结果:用另一个 LLM 做结果校验,不通过就拒绝输出
监控和迭代:
-
记录所有失败 case,定期分析高频失败模式
-
把高频失败场景转化为测试用例,下次上线前先跑一遍
追问 3:你怎么判断一个功能该不该用 LLM?
这道题考的是产品判断力。字节面经里明确提到,面试官会追问「你能不能把功能定义讲清楚」。
回答框架:
适合用 LLM 的场景:
-
输入输出都是自然语言,比如客服对话、文档摘要
-
任务有模糊性,需要理解上下文,比如意图识别
-
规则难以穷举,比如内容审核、创意生成
不适合用 LLM 的场景:
-
需要精确计算或严格逻辑判断,比如财务结算
-
延迟要求极高,比如高频交易
-
错误成本极高,比如医疗诊断、法律判决
判断方法:
-
先用规则或传统 ML 试一遍,看能不能解决问题
-
如果规则写不完、ML 标注成本高,再考虑 LLM
-
始终保留「不用 LLM」的降级方案,别把系统绑死在模型上
易错点
易错点 1:把原理背成论文摘要
面试官不是在考你记不记得住 Transformer 的公式。他想听的是:你能不能用三句话把核心逻辑讲清楚。
❌ 错误示范:「Transformer 是一种基于自注意力机制的序列到序列模型,它通过多头注意力机制捕捉序列中的长距离依赖关系,采用位置编码保留序列顺序信息...」
✅ 正确示范:「LLM 本质上是个预测下一个词的概率模型。Transformer 架构让它能看懂长文本,预训练让它学会了语言规律,对齐技术让它能听懂人话。」
易错点 2:只说优点,不说缺点
面试官问 RAG,你说「RAG 能实时更新知识」;问微调,你说「微调能让模型更懂领域」。但你没说:RAG 的检索质量是瓶颈,微调可能过拟合。
记住:成熟的工程师,永远知道技术的边界在哪里。面试官问你对技术的理解,其实是在问:你踩过坑吗?你有判断力吗?
易错点 3:把「落地经验」说成「项目流水账」
面试官问「你在项目里怎么用 RAG 的」,你开始讲:「我们有个知识库,用户提问,系统检索,然后生成答案...」
这不是落地经验,这是功能描述。
落地经验要讲的是:
-
你们遇到了什么问题?
-
试了哪些方案?
-
为什么选了这个?
-
踩了什么坑?
-
怎么解决的?
把「做了什么」换成「为什么这么做」,面试官才会觉得你有思考。
LLM 八股文不是死记硬背的题库,而是你知识体系的骨架。一面被问到 LLM,面试官真正想看的,是你能不能把技术翻译成产品语言,能不能在「检索质量不行」和「工具调用失败」之间,说清楚你的判断逻辑。
背答案的人,只能过简历筛选;能讲清楚「为什么」的人,才能过一面。
这是「AI 面试八股文」系列的第一篇。下一期,我们聊聊:Transformer 的自注意力机制,面试官到底想听什么?
你在面试中被问过哪些 LLM 相关问题?欢迎在评论区分享,我会挑高频问题,在后续文章里拆解。
数据来源:公开社区汇总整理,已做脱敏处理,仅供参考。
延伸阅读:更多技术面试拆解,欢迎关注我的博客:tobemagic.github.io/ai-magician…
延伸入口
- 个人博客站点:tobemagic.github.io/ai-magician…
- 公众号:计算机魔术师
- 想看系统化归档、原文版本与后续补充,优先回到个人博客站点;想追更新和合集,去公众号。