一、模型蒸馏:大模型教小模型“绝活”
想象一下,一个知识渊博的大学教授(大模型)和一个天真无邪的小学生(小模型)。
教授啥都会,但请他来上课很贵,教室得配超级电脑,电费也高得吓人。小学生虽然啥都不会,但养起来便宜,一台普通笔记本就能跑。
怎么办呢?我们让教授把自己的“解题技巧”浓缩一下,教给小学生,虽然不能让小学生变得和教授一样牛,但至少能学会几招,能应付日常问题。这就是模型蒸馏。
怎么教的?
1.老师示范: 给教授一个问题(比如“这是猫还是狗?”),教授,而是给出一堆可能性(“80%是猫,15%不会直接说“这是猫”是狗,5%是老虎”),这就是“软标签”,有点像教思路而不是答案
2.学生模仿: 小学生拿到这些可能性后,试着自己回答,然后对比教授的答案,调整自己的思路
3.结合基础知识: 小学生还有自己的课本(硬标签,比如“猫就是猫”),会把课本知识和教授的思路结合起来,找到平衡
4.反复练习: 通过不断刷题,小学生慢慢学会了教授的思考方式,虽然没那么厉害,但已经能独当一面
举个例子
有个超大模型叫“DeepSeekR1”,参数高达671亿,像个超级教授。它的“学生”是一堆小模型,参数从几亿到几十亿不等。经过蒸馏,这些小模型学会了一些“三脚猫功夫”,能在普通电脑上跑,干活效率也不错。
优点和局限
- 优点: 小模型体积小、跑得快,适合手机、边缘设备这种“穷地方”
-
局限: 小模型天赋有限,学不到教授的全部本事,精度会打折扣
二、RAG:给模型配个“外挂小抄”
RAG(检索增强生成)不是让模型变聪明,而是给它配个“外挂”。想象一个学生考试不会做题,但旁边有个超级图书馆,每次答题前翻一下书,答案马上就精准了,RAG就是这么回事。
怎么玩的?
1.准备知识库: 把一堆资料(比如公司文档、历史文章)整理好存在一个“图书馆”里
2.先查再答: 你问模型问题时,它先去图书馆搜相关内容,然后结合自己的知识回答
3.不改大脑: 模型本身没变,只是多了个“查资料”的步骤
举个例子
有个公众号用腾讯混元大模型做自动回复。它把所有历史文章塞进知识库,有人提问时,模型先查文章,再回答,保证答案靠谱又贴合实际。
优点和局限
- 优点: 回答更精准,尤其是专业领域的冷门问题
-
局限: 需要一个靠谱的知识库,搜资料也得花点时间
三、微调:给模型“补课”
微调(Fine-tuning)就像学生发现自己数学不好,找个家教补习一下,专门提高某块短板。它不像蒸馏那样从头教,也不需要外挂,就是在大模型的基础上“精修”一下。
怎么补的?
1.找短板: 发现模型在某个领域(比如经济管理)不擅长。
2.开小灶: 拿一堆专业数据(比如经管文献)喂给模型,让它多练几遍
3.小调整: 模型稍微改改参数,变得更擅长这个领域。
举个例子
有个通用模型不太懂医疗知识,用医疗数据集微调后,它就摇身变成了“医疗专家模型”。再比如,李飞飞团队用50美元微调了个模型,性能直追大佬,其实是站在开源模型Owen2.5的基础上,用蒸馏数据“补课”出来的。
优点和局限
- 优点: 针对性强,效果立竿见影
-
局限: 只能补一块,不能全面提升,数据不好找还得花钱
四、三者对比
五、总结:各有各的招
- 蒸馏: 让小模型继承大模型的智慧,适合“减肥”跑得快
- RAG: 给模型加个外援,适合知识密集型任务。
- 微调: 精修短板,适合定制化需求
解码策略可以通过推理参数(例如temperature、topp、topk)在模型推理时进行控制,从而决定模型响应的随机性和多样性。
贪婪搜索、束搜索和采样是三种常见的自回归模型生成的解码策略。在自回归生成过程中,LLM根据前一个token的条件,基于候选token的概率分布逐个输出token。
默认情况下,使用贪婪搜索来生成概率最高的下一个token。与此不同,束搜索解码会考虑多个下一个最佳token的假设,并选择在整个文本序列中具有最高综合概率的假设。
以下代码片段使用transformers库,在模型生成过程中指定束搜索路径的数量(例如num beams=5表示考虑5个不同的假设):
采样策略是控制模型响应随机性的第三种方法,通过调整这些推理参数:
1.温度(Temperature): 降低温度会使概率分布变得更加尖锐,从而增加生成高概率词语的可能性,减少生成低概率词语的可能性。当温度=0时,相当于贪婪搜索(最不具创意);当温度=1时,会生成最具创意的输出
2.Top K采样: 这种方法筛选出K个最可能的下一个token,并在这些token之间重新分配概率。模型从这个筛选出的token集合中进行采样
3.Top P采样: 与从K个最可能的token中采样不同,top-p采样从最小的token集合中选择,该集合的累积概率超过阈值p
以下示例代码片段从累积概率大于0.95(topp=0.95)的前50个最可能的token中进行采样(top k=50):
RAG系统可以分为检索和生成两个阶段。
检索过程的目标是通过对外部知识进行切块、创建嵌入、索引和相似性搜索,找到与用户查询密切相关的知识库内容
1.切块(Chunking): 将文档划分为较小的段落,每个段落包含一个独立的信息单元
2.创建嵌入(Createembeddings): 嵌入模型将每个信息块压缩为向量表示。用户查询也通过相同的向量化过程转换为向量表示,这样用户查询就可以在相同的维度空间中进行比较
3.索引(Indexing): 这一过程将这些文本块及其向量嵌入存储为键值对,从而实现高效且可扩展的搜索功能。对于超出内存容量的大型外部知识库,向量数据库提供高效的长期存储
4.相似性搜索(Similarity search): 计算查询嵌入与文本块嵌入之间的相似性分数,用于搜索与用户查询高度相关的信息
学习资源
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
大模型从零基础到进阶的学习路线大纲全览
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
智泊AI:中国领先的人工智能(AI)平台和服务团队,致力于推动数字转型与智能升级,通过AI技术赋能未来人才发展。
PS:以上学习资源,咨询课程、1对1就业指导、技术进阶提升,公主号(智泊AI)回复:02