AI 面试八股文 Vol.1:LLM 为什么总在一面被问到?

7 阅读7分钟

2026 年 3 月的一个下午,有个读者私信我,说他在字节 AI 应用工程师的一面被问到了 LLM 的基础问题,结果卡住了。

「面试官问我:LLM 的核心原理是什么?RAG 和微调怎么选?我背了一堆名词,但感觉他越听越皱眉。」

这个场景太典型了。一面不是在考你背书,是在考你有没有「工程直觉」。面试官问 LLM,其实是在问:你能不能把技术翻译成产品语言?能不能在「检索质量不行」和「工具调用失败」之间,说清楚兜底方案?

为什么现在值得写?因为 AI 岗位的面试节奏正在变快。一面就是生死线,很多人还没来得及展示项目,就被八股文刷掉了。而 LLM 相关问题,恰恰是一面最高频的考点。

今天这篇,是「AI 面试八股文」系列的第一篇。我们用一道高频题,把 LLM 一面最容易被问穿的知识点,一次讲透。


问题

「请介绍一下 LLM 的核心原理,以及 RAG 和微调的区别。」

这道题看起来基础,但面试官真正想听的,不是你能不能把 Transformer 公式背出来,而是你能不能用三句话说清楚逻辑,再展开关键机制。


标准答案

先说 LLM 的核心原理。

LLM(Large Language Model)的本质,是一个「预测下一个词」的概率模型。它通过海量文本训练,学会了在给定上下文时,预测下一个最可能出现的词。这个预测能力,经过规模放大和指令微调后,涌现出了推理、对话、代码生成等能力。

关键机制有三个:

  1. Transformer 架构:自注意力机制让模型能捕捉长距离依赖,不再像 RNN 那样「记不住前面说了什么」。

  2. 预训练 + 微调范式:先在大规模语料上预训练,学会语言规律;再在特定任务上微调,学会听人话。

  3. 对齐技术:RLHF、DPO 等方法让模型输出更符合人类期望,减少「一本正经胡说八道」的情况。

再说 RAG 和微调的区别。

RAG(检索增强生成)的核心思路是:在生成答案前,先从外部知识库检索相关信息,再把检索结果喂给 LLM,让它基于这些信息生成回答。相当于考试时给你一本参考书,你边翻边答。

微调(Fine-tuning)的核心思路是:在特定领域数据上继续训练模型,让模型「记住」这些知识,改变模型参数。相当于考前把知识背进脑子里。

两者的选择逻辑:

| 维度 | RAG | 微调 | |------|-----|------| | 知识更新 | 实时,改知识库就行 | 需要重新训练 | | 成本 | 低,主要是检索系统 | 高,需要算力和数据 | | 适用场景 | 知识频繁变化、需要可解释性 | 需要特定风格、领域深度 | | 典型问题 | 检索质量、召回率 | 过拟合、灾难性遗忘 |

⚠️ 踩坑提醒:面试里最容易犯的错误是把 RAG 和微调说成「二选一」。实际上,很多生产系统是两者结合的:先用 RAG 保证知识时效性,再用微调让模型学会特定领域的表达风格。


常见追问

追问 1:RAG 的检索质量不行怎么办?

这是字节面经里高频出现的问题。面试官不是在问你「有没有遇到过」,而是在问你「有没有系统性的解决思路」。

回答框架:

检索阶段优化

  • 换更好的 embedding 模型,比如从 text2vec 升级到 bge-m3

  • 做查询改写,把用户问题拆成多个子查询,提升召回覆盖

  • 引入混合检索,向量检索 + 关键词检索双路召回

召回阶段优化

  • 调整 chunk 大小和 overlap,别把关键信息切没了

  • 做重排序,用 cross-encoder 对召回结果精排,把最相关的提到前面

生成阶段兜底

  • 在 prompt 里明确告诉模型「如果检索结果不相关,就说不知道」

  • 设置置信度阈值,低于阈值时触发人工或兜底回复

追问 2:工具调用失败怎么兜底?

AI 应用工程师岗位经常会问到这个问题。面试官想看的是:你能不能把「失败」当成一个正常状态来设计,而不是假设一切顺利。

回答框架:

失败分类

  • 工具不存在或参数错误:模型生成了错误的函数调用

  • 工具执行超时:外部服务响应慢或挂了

  • 工具返回异常结果:返回值格式不对或内容错误

兜底策略

  • 参数错误:让 LLM 自我修正,重试一次

  • 超时:设置重试次数上限,超过后降级到通用回复

  • 异常结果:用另一个 LLM 做结果校验,不通过就拒绝输出

监控和迭代

  • 记录所有失败 case,定期分析高频失败模式

  • 把高频失败场景转化为测试用例,下次上线前先跑一遍

追问 3:你怎么判断一个功能该不该用 LLM?

这道题考的是产品判断力。字节面经里明确提到,面试官会追问「你能不能把功能定义讲清楚」。

回答框架:

适合用 LLM 的场景

  • 输入输出都是自然语言,比如客服对话、文档摘要

  • 任务有模糊性,需要理解上下文,比如意图识别

  • 规则难以穷举,比如内容审核、创意生成

不适合用 LLM 的场景

  • 需要精确计算或严格逻辑判断,比如财务结算

  • 延迟要求极高,比如高频交易

  • 错误成本极高,比如医疗诊断、法律判决

判断方法

  • 先用规则或传统 ML 试一遍,看能不能解决问题

  • 如果规则写不完、ML 标注成本高,再考虑 LLM

  • 始终保留「不用 LLM」的降级方案,别把系统绑死在模型上


易错点

易错点 1:把原理背成论文摘要

面试官不是在考你记不记得住 Transformer 的公式。他想听的是:你能不能用三句话把核心逻辑讲清楚。

❌ 错误示范:「Transformer 是一种基于自注意力机制的序列到序列模型,它通过多头注意力机制捕捉序列中的长距离依赖关系,采用位置编码保留序列顺序信息...」

✅ 正确示范:「LLM 本质上是个预测下一个词的概率模型。Transformer 架构让它能看懂长文本,预训练让它学会了语言规律,对齐技术让它能听懂人话。」

易错点 2:只说优点,不说缺点

面试官问 RAG,你说「RAG 能实时更新知识」;问微调,你说「微调能让模型更懂领域」。但你没说:RAG 的检索质量是瓶颈,微调可能过拟合。

记住:成熟的工程师,永远知道技术的边界在哪里。面试官问你对技术的理解,其实是在问:你踩过坑吗?你有判断力吗?

易错点 3:把「落地经验」说成「项目流水账」

面试官问「你在项目里怎么用 RAG 的」,你开始讲:「我们有个知识库,用户提问,系统检索,然后生成答案...」

这不是落地经验,这是功能描述。

落地经验要讲的是:

  • 你们遇到了什么问题?

  • 试了哪些方案?

  • 为什么选了这个?

  • 踩了什么坑?

  • 怎么解决的?

把「做了什么」换成「为什么这么做」,面试官才会觉得你有思考。


LLM 八股文不是死记硬背的题库,而是你知识体系的骨架。一面被问到 LLM,面试官真正想看的,是你能不能把技术翻译成产品语言,能不能在「检索质量不行」和「工具调用失败」之间,说清楚你的判断逻辑。

背答案的人,只能过简历筛选;能讲清楚「为什么」的人,才能过一面。

这是「AI 面试八股文」系列的第一篇。下一期,我们聊聊:Transformer 的自注意力机制,面试官到底想听什么?

你在面试中被问过哪些 LLM 相关问题?欢迎在评论区分享,我会挑高频问题,在后续文章里拆解。


数据来源:公开社区汇总整理,已做脱敏处理,仅供参考。

延伸阅读:更多技术面试拆解,欢迎关注我的博客:tobemagic.github.io/ai-magician…


延伸入口

  • 个人博客站点:tobemagic.github.io/ai-magician…
  • 公众号:计算机魔术师
  • 想看系统化归档、原文版本与后续补充,优先回到个人博客站点;想追更新和合集,去公众号。