大厂卷大模型，企业用小模型？一文理清 AI 落地的最佳分工文/九歌图/Gemini3 动态视图； Nanobanan

文/九歌

图/Gemini3 动态视图； Nanobanana

我在知乎上经常刷到下面这个问题。

qwen3-0.6B这种小模型有什么实际意义和用途吗？

所以今天聊个比较有意思，但也是一个老生常谈的话题——垂类模型。

垂类模型主要有两种实现路径：一种是大模型+知识库（LLM+RAG），另一种是小模型+微调（SLM + Fine Tuning）。

大家或许大模型听的比较多，比如我的网名就是九歌AI大模型。

那什么又是小模型呢？两者如何区分和界定呢。

大家一定听过或者在某个地方见过下面的参数，除了上文中的0.6B,还有1.5B、7B、70B、671B等等，671B就是DeepSeek -V3的模型参数数量。其中B就是英文中的Billion,1B就是10亿，671B就是6710亿参数。

所谓的大模型和小模型，最直观的一个区分就是模型的参数量多少，现在的大模型参数基本都到了都是千亿万亿级别的，比如我们经常用的DeepSeek、豆包、千问、Gemini3，我们把这些统称为大模型(Large Language Model)。

而1.5B,7B这种跟万亿相去甚远的模型，我们叫做小模型（Small Language Model)

大模型的参数量巨大，优点不用说了，擅长逻辑推理，知识丰富，就像一群刚刚清华北大毕业本科生组成的团队，好像什么都知道，但是他们都没有一线的业务经验，所以在一些具体的业务场景或企业内部手册中，需要知识库，也就是RAG技术来更好的指导大模型来完成任务。

所以我们在跟很多大模型实际对话的时候，真实的过程是下面这样的。

除了知识库，更长的上下文，更规范的Skills，更严谨的需求文档，也是提升大模型效果的有力武器。

大模型的缺点也显而易见，一是API调用成本还是非常巨大的，一般企业业务根本用不起。二是很多场景压根就不需要用这么智能的大模型，因为企业的实际业务中，存在着大量的高频低能需求，这类需求不需要你的算法多么智能，但是延迟一定要低，速度要快！

如果说 RAG 是给模型“外挂知识”，那么微调 (Fine-tuning) 就是“内化能力”。对于特定行业黑话、固定输出格式 (JSON/XML) 或极度敏感的数据环境，微调小模型是性价比最高的选择。

下面的动图就是3种常见的微调效果。

对于大部分企业来说，如果用微调后的小模型来实现大模型相近的效果，那真的是太香了。

举一个最直观的例子，WPS提供的改写缩写以及润色功能，我怀疑一定是金山公司使用的微调模型，因为这类场景就是典型的高频、低延迟、逻辑简单的最典型例子。

基于上面的简单分析，我们现在对大模型和小模型的落地分工进行一下总结。

（1）任务特性的区分

（2）业务特性的区分

（3）数据获取成本区别

上面的图片是让Gemini3做的，字体可能有点小，我整理了个表格，把小模型的应用场景重点梳理了一下。这个表格是我跟多个大模型轮番交流了很久才整理到的。

我使用知乎直答对“qwen3-0.6B这种小模型有什么实际意义和用途吗”这个问题进行了总结，发现基本与我们上面的分析一致。

既然小模型这么香，我们普通人能快速上手吗？

当然可以，这方面的开源解决方案非常多，比如数据集处理有Easy Dataset，模型微调有LlamaFactory。

模型微调最难的不是在显卡上对数据进行推理，而是一份高质量的数据集。

所以，很多企业直接将大模型当作最佳数据集的主要来源。因为大模型是一个非常合格的老师，它可能把自己的一部分能力传授给小模型，开发大模型的厂家的数据集绝对是非常高质量的。

这个过程就是大家上半年可能听说过的知识蒸馏。知识蒸馏中，大模型是老师，小模型是学生。

总之，大模型和小模型各有自己的擅长之处，两者是互补和相互依赖的，企业也不应该只局限于一种选择，而是要根据自己的业务类型，选择最适合自己的方式。