AI 面试八股文 Vol.1：LLM 为什么总在一面被问到？LLM 相关问题在一面高频出现，不是面试官在刁难，而是在快速

2026 年 3 月的一个下午，有个读者私信我，说他在字节 AI 应用工程师的一面被问到了 LLM 的基础问题，结果卡住了。

「面试官问我：LLM 的核心原理是什么？RAG 和微调怎么选？我背了一堆名词，但感觉他越听越皱眉。」

这个场景太典型了。一面不是在考你背书，是在考你有没有「工程直觉」。面试官问 LLM，其实是在问：你能不能把技术翻译成产品语言？能不能在「检索质量不行」和「工具调用失败」之间，说清楚兜底方案？

为什么现在值得写？因为 AI 岗位的面试节奏正在变快。一面就是生死线，很多人还没来得及展示项目，就被八股文刷掉了。而 LLM 相关问题，恰恰是一面最高频的考点。

今天这篇，是「AI 面试八股文」系列的第一篇。我们用一道高频题，把 LLM 一面最容易被问穿的知识点，一次讲透。

问题

「请介绍一下 LLM 的核心原理，以及 RAG 和微调的区别。」

这道题看起来基础，但面试官真正想听的，不是你能不能把 Transformer 公式背出来，而是你能不能用三句话说清楚逻辑，再展开关键机制。

标准答案

先说 LLM 的核心原理。

LLM（Large Language Model）的本质，是一个「预测下一个词」的概率模型。它通过海量文本训练，学会了在给定上下文时，预测下一个最可能出现的词。这个预测能力，经过规模放大和指令微调后，涌现出了推理、对话、代码生成等能力。

关键机制有三个：

Transformer 架构：自注意力机制让模型能捕捉长距离依赖，不再像 RNN 那样「记不住前面说了什么」。
预训练 + 微调范式：先在大规模语料上预训练，学会语言规律；再在特定任务上微调，学会听人话。
对齐技术：RLHF、DPO 等方法让模型输出更符合人类期望，减少「一本正经胡说八道」的情况。

再说 RAG 和微调的区别。

RAG（检索增强生成）的核心思路是：在生成答案前，先从外部知识库检索相关信息，再把检索结果喂给 LLM，让它基于这些信息生成回答。相当于考试时给你一本参考书，你边翻边答。

微调（Fine-tuning）的核心思路是：在特定领域数据上继续训练模型，让模型「记住」这些知识，改变模型参数。相当于考前把知识背进脑子里。

两者的选择逻辑：

| 维度 | RAG | 微调 | |------|-----|------| | 知识更新 | 实时，改知识库就行 | 需要重新训练 | | 成本 | 低，主要是检索系统 | 高，需要算力和数据 | | 适用场景 | 知识频繁变化、需要可解释性 | 需要特定风格、领域深度 | | 典型问题 | 检索质量、召回率 | 过拟合、灾难性遗忘 |

⚠️ 踩坑提醒：面试里最容易犯的错误是把 RAG 和微调说成「二选一」。实际上，很多生产系统是两者结合的：先用 RAG 保证知识时效性，再用微调让模型学会特定领域的表达风格。

常见追问

追问 1：RAG 的检索质量不行怎么办？

这是字节面经里高频出现的问题。面试官不是在问你「有没有遇到过」，而是在问你「有没有系统性的解决思路」。

回答框架：

检索阶段优化：

换更好的 embedding 模型，比如从 text2vec 升级到 bge-m3
做查询改写，把用户问题拆成多个子查询，提升召回覆盖
引入混合检索，向量检索 + 关键词检索双路召回

召回阶段优化：

调整 chunk 大小和 overlap，别把关键信息切没了
做重排序，用 cross-encoder 对召回结果精排，把最相关的提到前面

生成阶段兜底：

在 prompt 里明确告诉模型「如果检索结果不相关，就说不知道」
设置置信度阈值，低于阈值时触发人工或兜底回复

追问 2：工具调用失败怎么兜底？

AI 应用工程师岗位经常会问到这个问题。面试官想看的是：你能不能把「失败」当成一个正常状态来设计，而不是假设一切顺利。

回答框架：

失败分类：

工具不存在或参数错误：模型生成了错误的函数调用
工具执行超时：外部服务响应慢或挂了
工具返回异常结果：返回值格式不对或内容错误

兜底策略：

参数错误：让 LLM 自我修正，重试一次
超时：设置重试次数上限，超过后降级到通用回复
异常结果：用另一个 LLM 做结果校验，不通过就拒绝输出

监控和迭代：

记录所有失败 case，定期分析高频失败模式
把高频失败场景转化为测试用例，下次上线前先跑一遍

追问 3：你怎么判断一个功能该不该用 LLM？

这道题考的是产品判断力。字节面经里明确提到，面试官会追问「你能不能把功能定义讲清楚」。

回答框架：

适合用 LLM 的场景：

输入输出都是自然语言，比如客服对话、文档摘要
任务有模糊性，需要理解上下文，比如意图识别
规则难以穷举，比如内容审核、创意生成

不适合用 LLM 的场景：

需要精确计算或严格逻辑判断，比如财务结算
延迟要求极高，比如高频交易
错误成本极高，比如医疗诊断、法律判决

判断方法：

先用规则或传统 ML 试一遍，看能不能解决问题
如果规则写不完、ML 标注成本高，再考虑 LLM
始终保留「不用 LLM」的降级方案，别把系统绑死在模型上

易错点

易错点 1：把原理背成论文摘要

面试官不是在考你记不记得住 Transformer 的公式。他想听的是：你能不能用三句话把核心逻辑讲清楚。

❌ 错误示范：「Transformer 是一种基于自注意力机制的序列到序列模型，它通过多头注意力机制捕捉序列中的长距离依赖关系，采用位置编码保留序列顺序信息...」

✅ 正确示范：「LLM 本质上是个预测下一个词的概率模型。Transformer 架构让它能看懂长文本，预训练让它学会了语言规律，对齐技术让它能听懂人话。」

易错点 2：只说优点，不说缺点

面试官问 RAG，你说「RAG 能实时更新知识」；问微调，你说「微调能让模型更懂领域」。但你没说：RAG 的检索质量是瓶颈，微调可能过拟合。

记住：成熟的工程师，永远知道技术的边界在哪里。面试官问你对技术的理解，其实是在问：你踩过坑吗？你有判断力吗？

易错点 3：把「落地经验」说成「项目流水账」

面试官问「你在项目里怎么用 RAG 的」，你开始讲：「我们有个知识库，用户提问，系统检索，然后生成答案...」

这不是落地经验，这是功能描述。

落地经验要讲的是：

你们遇到了什么问题？
试了哪些方案？
为什么选了这个？
踩了什么坑？
怎么解决的？

把「做了什么」换成「为什么这么做」，面试官才会觉得你有思考。

LLM 八股文不是死记硬背的题库，而是你知识体系的骨架。一面被问到 LLM，面试官真正想看的，是你能不能把技术翻译成产品语言，能不能在「检索质量不行」和「工具调用失败」之间，说清楚你的判断逻辑。

背答案的人，只能过简历筛选；能讲清楚「为什么」的人，才能过一面。

这是「AI 面试八股文」系列的第一篇。下一期，我们聊聊：Transformer 的自注意力机制，面试官到底想听什么？

你在面试中被问过哪些 LLM 相关问题？欢迎在评论区分享，我会挑高频问题，在后续文章里拆解。

数据来源：公开社区汇总整理，已做脱敏处理，仅供参考。

延伸阅读：更多技术面试拆解，欢迎关注我的博客：tobemagic.github.io/ai-magician…

延伸入口

个人博客站点：tobemagic.github.io/ai-magician…
公众号：计算机魔术师
想看系统化归档、原文版本与后续补充，优先回到个人博客站点；想追更新和合集，去公众号。