文/九歌
图/Gemini3 动态视图; Nanobanana
我在知乎上经常刷到下面这个问题。
qwen3-0.6B这种小模型有什么实际意义和用途吗?
所以今天聊个比较有意思,但也是一个老生常谈的话题——垂类模型。
垂类模型主要有两种实现路径:一种是大模型+知识库(LLM+RAG),另一种是小模型+微调(SLM + Fine Tuning)。
大家或许大模型听的比较多,比如我的网名就是九歌AI大模型。
那什么又是小模型呢?两者如何区分和界定呢。
大家一定听过或者在某个地方见过下面的参数,除了上文中的0.6B,还有1.5B、7B、70B、671B等等,671B就是DeepSeek -V3的模型参数数量。其中B就是英文中的Billion,1B就是10亿,671B就是6710亿参数。
所谓的大模型和小模型,最直观的一个区分就是模型的参数量多少,现在的大模型参数基本都到了都是千亿万亿级别的,比如我们经常用的DeepSeek、豆包、千问、Gemini3,我们把这些统称为大模型(Large Language Model)。
而1.5B,7B这种跟万亿相去甚远的模型,我们叫做小模型(Small Language Model)
大模型的参数量巨大,优点不用说了,擅长逻辑推理,知识丰富,就像一群刚刚清华北大毕业本科生组成的团队,好像什么都知道,但是他们都没有一线的业务经验,所以在一些具体的业务场景或企业内部手册中,需要知识库,也就是RAG技术来更好的指导大模型来完成任务。
所以我们在跟很多大模型实际对话的时候,真实的过程是下面这样的。
除了知识库,更长的上下文,更规范的Skills,更严谨的需求文档,也是提升大模型效果的有力武器。
大模型的缺点也显而易见,一是API调用成本还是非常巨大的,一般企业业务根本用不起。二是很多场景压根就不需要用这么智能的大模型,因为企业的实际业务中,存在着大量的高频低能需求,这类需求不需要你的算法多么智能,但是延迟一定要低,速度要快!
如果说 RAG 是给模型“外挂知识”,那么微调 (Fine-tuning) 就是“内化能力”。 对于特定行业黑话、固定输出格式 (JSON/XML) 或极度敏感的数据环境,微调小模型是性价比最高的选择。
下面的动图就是3种常见的微调效果。
对于大部分企业来说,如果用微调后的小模型来实现大模型相近的效果,那真的是太香了。
举一个最直观的例子,WPS提供的改写缩写以及润色功能,我怀疑一定是金山公司使用的微调模型,因为这类场景就是典型的高频、低延迟、逻辑简单的最典型例子。
基于上面的简单分析,我们现在对大模型和小模型的落地分工进行一下总结。
(1)任务特性的区分
(2)业务特性的区分
(3)数据获取成本区别
上面的图片是让Gemini3做的,字体可能有点小,我整理了个表格,把小模型的应用场景重点梳理了一下。这个表格是我跟多个大模型轮番交流了很久才整理到的。
我使用知乎直答对“qwen3-0.6B这种小模型有什么实际意义和用途吗”这个问题进行了总结,发现基本与我们上面的分析一致。
既然小模型这么香,我们普通人能快速上手吗?
当然可以,这方面的开源解决方案非常多,比如数据集处理有Easy Dataset,模型微调有LlamaFactory。
模型微调最难的不是在显卡上对数据进行推理,而是一份高质量的数据集。
所以,很多企业直接将大模型当作最佳数据集的主要来源。因为大模型是一个非常合格的老师,它可能把自己的一部分能力传授给小模型,开发大模型的厂家的数据集绝对是非常高质量的。
这个过程就是大家上半年可能听说过的知识蒸馏。知识蒸馏中,大模型是老师,小模型是学生。
总之,大模型和小模型各有自己的擅长之处,两者是互补和相互依赖的,企业也不应该只局限于一种选择,而是要根据自己的业务类型,选择最适合自己的方式。