【一文说清】大模型：蒸馏、微调、RAG，超级简单！通俗易懂，0基础小白也能看懂！一、模型蒸馏：大模型教小模型“绝活” 想

一、模型蒸馏：大模型教小模型“绝活”

想象一下，一个知识渊博的大学教授(大模型)和一个天真无邪的小学生(小模型)。

教授啥都会，但请他来上课很贵，教室得配超级电脑，电费也高得吓人。小学生虽然啥都不会，但养起来便宜，一台普通笔记本就能跑。

怎么办呢?我们让教授把自己的“解题技巧”浓缩一下，教给小学生，虽然不能让小学生变得和教授一样牛，但至少能学会几招，能应付日常问题。这就是模型蒸馏。

怎么教的?

1.老师示范： 给教授一个问题(比如“这是猫还是狗?”)，教授，而是给出一堆可能性(“80%是猫，15%不会直接说“这是猫”是狗，5%是老虎”)，这就是“软标签”，有点像教思路而不是答案

2.学生模仿： 小学生拿到这些可能性后，试着自己回答，然后对比教授的答案，调整自己的思路

3.结合基础知识： 小学生还有自己的课本(硬标签，比如“猫就是猫”)，会把课本知识和教授的思路结合起来，找到平衡

4.反复练习： 通过不断刷题，小学生慢慢学会了教授的思考方式,虽然没那么厉害，但已经能独当一面

举个例子

有个超大模型叫“DeepSeekR1”，参数高达671亿，像个超级教授。它的“学生”是一堆小模型，参数从几亿到几十亿不等。经过蒸馏，这些小模型学会了一些“三脚猫功夫”，能在普通电脑上跑，干活效率也不错。

优点和局限

优点： 小模型体积小、跑得快，适合手机、边缘设备这种“穷地方”

局限： 小模型天赋有限，学不到教授的全部本事，精度会打折扣

二、RAG：给模型配个“外挂小抄”

RAG(检索增强生成)不是让模型变聪明，而是给它配个“外挂”。想象一个学生考试不会做题，但旁边有个超级图书馆，每次答题前翻一下书，答案马上就精准了，RAG就是这么回事。

怎么玩的?

1.准备知识库： 把一堆资料(比如公司文档、历史文章)整理好存在一个“图书馆”里

2.先查再答： 你问模型问题时，它先去图书馆搜相关内容，然后结合自己的知识回答

3.不改大脑： 模型本身没变，只是多了个“查资料”的步骤

举个例子

有个公众号用腾讯混元大模型做自动回复。它把所有历史文章塞进知识库，有人提问时，模型先查文章，再回答，保证答案靠谱又贴合实际。

优点和局限

优点： 回答更精准，尤其是专业领域的冷门问题

局限： 需要一个靠谱的知识库，搜资料也得花点时间

三、微调：给模型“补课”

微调(Fine-tuning)就像学生发现自己数学不好，找个家教补习一下，专门提高某块短板。它不像蒸馏那样从头教，也不需要外挂，就是在大模型的基础上“精修”一下。

怎么补的?

1.找短板： 发现模型在某个领域(比如经济管理)不擅长。

2.开小灶： 拿一堆专业数据(比如经管文献)喂给模型，让它多练几遍

3.小调整： 模型稍微改改参数，变得更擅长这个领域。

举个例子

有个通用模型不太懂医疗知识，用医疗数据集微调后，它就摇身变成了“医疗专家模型”。再比如，李飞飞团队用50美元微调了个模型，性能直追大佬，其实是站在开源模型Owen2.5的基础上，用蒸馏数据“补课”出来的。

优点和局限

优点： 针对性强，效果立竿见影

局限： 只能补一块，不能全面提升，数据不好找还得花钱

四、三者对比

五、总结：各有各的招

蒸馏： 让小模型继承大模型的智慧，适合“减肥”跑得快

RAG： 给模型加个外援，适合知识密集型任务。

微调： 精修短板，适合定制化需求

解码策略可以通过推理参数(例如temperature、topp、topk)在模型推理时进行控制，从而决定模型响应的随机性和多样性。

贪婪搜索、束搜索和采样是三种常见的自回归模型生成的解码策略。在自回归生成过程中，LLM根据前一个token的条件，基于候选token的概率分布逐个输出token。

默认情况下，使用贪婪搜索来生成概率最高的下一个token。与此不同，束搜索解码会考虑多个下一个最佳token的假设，并选择在整个文本序列中具有最高综合概率的假设。

以下代码片段使用transformers库，在模型生成过程中指定束搜索路径的数量(例如num beams=5表示考虑5个不同的假设):

采样策略是控制模型响应随机性的第三种方法，通过调整这些推理参数:

1.温度(Temperature)： 降低温度会使概率分布变得更加尖锐，从而增加生成高概率词语的可能性，减少生成低概率词语的可能性。当温度=0时，相当于贪婪搜索(最不具创意);当温度=1时，会生成最具创意的输出

2.Top K采样： 这种方法筛选出K个最可能的下一个token，并在这些token之间重新分配概率。模型从这个筛选出的token集合中进行采样

3.Top P采样： 与从K个最可能的token中采样不同，top-p采样从最小的token集合中选择，该集合的累积概率超过阈值p

以下示例代码片段从累积概率大于0.95(topp=0.95)的前50个最可能的token中进行采样(top k=50):

RAG系统可以分为检索和生成两个阶段。

检索过程的目标是通过对外部知识进行切块、创建嵌入、索引和相似性搜索，找到与用户查询密切相关的知识库内容

1.切块(Chunking)： 将文档划分为较小的段落，每个段落包含一个独立的信息单元

2.创建嵌入(Createembeddings)： 嵌入模型将每个信息块压缩为向量表示。用户查询也通过相同的向量化过程转换为向量表示，这样用户查询就可以在相同的维度空间中进行比较

3.索引(Indexing)： 这一过程将这些文本块及其向量嵌入存储为键值对，从而实现高效且可扩展的搜索功能。对于超出内存容量的大型外部知识库，向量数据库提供高效的长期存储

4.相似性搜索(Similarity search)： 计算查询嵌入与文本块嵌入之间的相似性分数，用于搜索与用户查询高度相关的信息

学习资源

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

大模型从零基础到进阶的学习路线大纲全览

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

智泊AI：中国领先的人工智能(AI)平台和服务团队，致力于推动数字转型与智能升级，通过AI技术赋能未来人才发展。

PS：以上学习资源，咨询课程、1对1就业指导、技术进阶提升，公主号（智泊AI）回复：02