落地视角：大模型分类体系与应用场景选择本文从落地使用角度，按用途对大模型做个梳理和分类，方便大家对号入座，对照自己的业务

最近一两周千问Qwen3很活跃连发三弹，开源了专门用于编码的Qwen3-Coder模型，开源了号称最强推理模型Qwen3-235B-A22B-Thinking-2507，包括非思考模型Qwen3-235B-A22B-2507等，都号称最强SOTA。

这三弹和五一前发布的Qwen3模型啥关系？还有稍早发布的Kimi K2，DeepSeek R1更新0527版等等，都分别是针对哪种应用方向？分别可以归属到哪些不同的类型？

我们平时说的大模型，只是指这些热点大模型吗？大家AI项目落地，主要就靠这些大模型够了吗？

我们尝试生成吉卜力风格图片时用的是什么类型大模型？我们在落地RAG知识检索时用的Embedding模型和上面提到的大模型有什么不同？

本文从落地使用角度，按用途对大模型做个梳理和分类，方便大家对号入座，对照自己的业务场景，能明确落地时应该选择哪类模型。

大模型分类

业界普遍认可的大模型Large Model定义是“参数量巨大的预训练模型”，从用途来看其主要包括这么几种类型：

首先明确一点，我们常说的大语言模型（Large Language Model，缩写LLM）只是大模型的一种，对应自然语言处理的“大模型”，主要包含语义理解、深度推理、文字生成等作用，包括我们前面提到的Qwen3、DeepSeek等都属于这类大语言模型。

大语言模型LLM通常都属于自回归模型（Autoregressive Model），或者说普遍采用自回归模型架构，“自回归”的核心思想就是：用过去预测未来‌。在语言文本生成场景中，“过去”就是已经生成出来的上文序列，“未来”就是接下来要预测的那个词。LLM 每一次预测下一个词时，都会考虑之前所有已生成的词，所以你看到LLM反馈答案时，都是按顺序连贯地一个一个词（ Token by Token）地生成，这不是为了耍酷，不仅仅是为了给人一种机器人回复的体验，而是它的机制原理就决定了它必须要以这种方式生成结果。

和自回归模型架构相对应的就是扩散模型（Diffusion Model），扩散模型就不是按顺序连贯地方式生成了，而是随机生成一些点，然后围绕这些点去周边扩散，最终生成完整的结果，同时也是先生成轮廓再逐步细化修改的过程，典型案例就是各种图片生成和视频生成相关的模型，扩散的过程就可以想象成一幅拼图的拼接过程。目前业界比较经经典的文生图模型、文生视频模型都属于这类模型，包括Stable Diffusion（SD）、商业化的MidJourney等。

以上所说自回归模型和扩散模型，从用途看都属于生成式模型（Generative Model），就是用来生成某段文字或某个图片的，GPT的G就是Generative 生成式，P对应Pretrain预训练，T就是Transformer架构，所以它完整含义就是“生成式预训练Transformer架构的模型”。

和生成式模型相对应的就是判别式模型（Discriminative Models），它的用途主要是识别和分类。包括很多验证码里用到的图像识别模型；包括从证件和证书照片中提取文字的OCR识别模型，OCR全称是Optical Character Recognition‌（光学字符识别）‌，比如笔者之前文章中用到的PaddleOCR、CnOCR等；包括各种语音识别模型，对应Automatic Speech Recognition（自动语音识别）技术，包括我们在项目落地中用到的阿里FunASR，以及科大讯飞商业的讯飞语音模型等。

在生成式模型和判别式模型之外，还有一种多模态模型（Multi-modal Model），它们是同时具备判别能力和生成能力，还能够同时处理文字、图片和语音等不同格式的信息，作为输入和输出方式，所以称之为“多模态”。业界多模态模型名称中往往用“O”Omni全能这个词代指，包括GPT-4o和Qwen2.5-Omni等。

某种程度上可以说多模态模型=用图像识别/OCR识别/ASR识别等模型负责处理图片和语音的输入+用大语言模型LLM负责推理和文字生成+用文生图/语音合成TTS等模型负责图片和语音的输出。

在以上生成式模型、判别式模型、多模态模型的下面都会用到基础的Embedding和Rerank模型，这是对语言和图片等非结构化数据，进行向量化编码和语义相似度检索的基础，也是RAG的基础，目前国产开源使用最广泛就是BGE-M3，前段时间Qwen3也推出embedding模型。

大语言模型LLM分类

接下来针对以上所说各类大模型中，聚焦到大语言模型LLM这个核心板块，从使用角度按不同特征可以继续分类如下：

首先是通用大语言模型，最早就是OpenAI的GPT系列带动的对话模型，它可以理解用户输入问题并生成相应文字内容，包括国内开源的DeepSeek V3和近期Qwen3发布的Qwen3-235B-A22B-Instruct等模型。

然后是推理增强大语言模型，顾名思义就是在基座大语言模型基础上，进行专门的微调和强化学习来增强其深度推理能力，典型表象就是它有思考Thinking过程，最早是OpenAI的O1系列带动，年初DeepSeek R1开源让它发扬光大，大热之后，然后3月份千问就紧急开源了Qwq-32B模型，当然现在回头再看，这应该是Qwen3正式发布之前的过渡模型。

在R1刚出来的时候，就有客户在问能否关闭thinking的过程，五一期间发布的Qwen3就能动态开启和关闭thinking，所以它叫混合推理模型，随时可以变身。还有近期打了个漂亮翻身仗的Kimi K2，据说也是混合推理模型，而且可以依据问题难度自动判断是否要深度推理，不过笔者还没有来得及深入实践。

正如笔者在之前文章《大模型如何“练成”？》中所述，推理模型因为有Thinking思考过程，响应时间更慢一些，但可解释性更强一些，所以更适合复杂分析和总结的场景，比如数据分析和总结报告等场景。而当你需要即时响应并反馈的场景，比如在智能咨询响应时，用户肯定无法接受长达几秒钟的延时，则更适合用通用语言模型。而混合推理模型，则可以按需开启/关闭推理思考过程。

在以上几种典型用途分类之外，还有通过强化学习等手段，专门对编码能力做了增强的Coder模型，比如Qwen3-Coder等，还有数学增强，还有SQL增强等等。

本系列说明：笔者结合实际项目经验，从落地AI的视角出发，按照LLM、RAG、Agent、Training这样的顺序梳理一套基础技术体系，对应投入和落地难度从小到大，欢迎持续关注。

—End—