落地视角:大模型分类体系与应用场景选择

308 阅读7分钟

最近一两周千问Qwen3很活跃连发三弹,开源了专门用于编码的Qwen3-Coder模型,开源了号称最强推理模型Qwen3-235B-A22B-Thinking-2507,包括非思考模型Qwen3-235B-A22B-2507等,都号称最强SOTA。

这三弹和五一前发布的Qwen3模型啥关系?还有稍早发布的Kimi K2,DeepSeek R1更新0527版等等,都分别是针对哪种应用方向?分别可以归属到哪些不同的类型?

我们平时说的大模型,只是指这些热点大模型吗?大家AI项目落地,主要就靠这些大模型够了吗?

我们尝试生成吉卜力风格图片时用的是什么类型大模型?我们在落地RAG知识检索时用的Embedding模型和上面提到的大模型有什么不同?

本文从落地使用角度,按用途对大模型做个梳理和分类,方便大家对号入座,对照自己的业务场景,能明确落地时应该选择哪类模型。

大模型分类

业界普遍认可的大模型Large Model定义是“参数量巨大的预训练模型”,从用途来看其主要包括这么几种类型:

首先明确一点,我们常说的大语言模型(Large Language Model,缩写LLM)只是大模型的一种,对应自然语言处理的“大模型”,主要包含语义理解、深度推理、文字生成等作用,包括我们前面提到的Qwen3、DeepSeek等都属于这类大语言模型。

大语言模型LLM通常都属于自回归模型(Autoregressive Model),或者说普遍采用自回归模型架构,“自回归”的核心思想就是:用过去预测未来‌。在语言文本生成场景中,“过去”就是已经生成出来的上文序列,“未来”就是接下来要预测的那个词。LLM 每一次预测下一个词时,都会考虑之前所有已生成的词,所以你看到LLM反馈答案时,都是按顺序连贯地一个一个词( Token by Token)地生成,这不是为了耍酷,不仅仅是为了给人一种机器人回复的体验,而是它的机制原理就决定了它必须要以这种方式生成结果。

和自回归模型架构相对应的就是扩散模型(Diffusion Model),扩散模型就不是按顺序连贯地方式生成了,而是随机生成一些点,然后围绕这些点去周边扩散,最终生成完整的结果,同时也是先生成轮廓再逐步细化修改的过程,典型案例就是各种图片生成和视频生成相关的模型,扩散的过程就可以想象成一幅拼图的拼接过程。目前业界比较经经典的文生图模型、文生视频模型都属于这类模型,包括Stable Diffusion(SD)、商业化的MidJourney等。

以上所说自回归模型和扩散模型,从用途看都属于生成式模型(Generative Model),就是用来生成某段文字或某个图片的,GPT的G就是Generative 生成式,P对应Pretrain预训练,T就是Transformer架构,所以它完整含义就是“生成式预训练Transformer架构的模型”。

和生成式模型相对应的就是判别式模型(Discriminative Models),它的用途主要是识别和分类。包括很多验证码里用到的图像识别模型;包括从证件和证书照片中提取文字的OCR识别模型,OCR全称是Optical Character Recognition‌(光学字符识别)‌,比如笔者之前文章中用到的PaddleOCR、CnOCR等;包括各种语音识别模型,对应Automatic Speech Recognition(自动语音识别)技术,包括我们在项目落地中用到的阿里FunASR,以及科大讯飞商业的讯飞语音模型等。

在生成式模型和判别式模型之外,还有一种多模态模型(Multi-modal Model),它们是同时具备判别能力和生成能力,还能够同时处理文字、图片和语音等不同格式的信息,作为输入和输出方式,所以称之为“多模态”。业界多模态模型名称中往往用“O”Omni全能这个词代指,包括GPT-4o和Qwen2.5-Omni等。

某种程度上可以说多模态模型=用图像识别/OCR识别/ASR识别等模型负责处理图片和语音的输入+用大语言模型LLM负责推理和文字生成+用文生图/语音合成TTS等模型负责图片和语音的输出。

在以上生成式模型、判别式模型、多模态模型的下面都会用到基础的Embedding和Rerank模型,这是对语言和图片等非结构化数据,进行向量化编码和语义相似度检索的基础,也是RAG的基础,目前国产开源使用最广泛就是BGE-M3,前段时间Qwen3也推出embedding模型。

大语言模型LLM分类

接下来针对以上所说各类大模型中,聚焦到大语言模型LLM这个核心板块,从使用角度按不同特征可以继续分类如下:

首先是通用大语言模型,最早就是OpenAI的GPT系列带动的对话模型,它可以理解用户输入问题并生成相应文字内容,包括国内开源的DeepSeek V3和近期Qwen3发布的Qwen3-235B-A22B-Instruct等模型。

然后是推理增强大语言模型,顾名思义就是在基座大语言模型基础上,进行专门的微调和强化学习来增强其深度推理能力,典型表象就是它有思考Thinking过程,最早是OpenAI的O1系列带动,年初DeepSeek R1开源让它发扬光大,大热之后,然后3月份千问就紧急开源了Qwq-32B模型,当然现在回头再看,这应该是Qwen3正式发布之前的过渡模型。

在R1刚出来的时候,就有客户在问能否关闭thinking的过程,五一期间发布的Qwen3就能动态开启和关闭thinking,所以它叫混合推理模型,随时可以变身。还有近期打了个漂亮翻身仗的Kimi K2,据说也是混合推理模型,而且可以依据问题难度自动判断是否要深度推理,不过笔者还没有来得及深入实践。

正如笔者在之前文章《大模型如何“练成”?》中所述,推理模型因为有Thinking思考过程,响应时间更慢一些,但可解释性更强一些,所以更适合复杂分析和总结的场景,比如数据分析和总结报告等场景。而当你需要即时响应并反馈的场景,比如在智能咨询响应时,用户肯定无法接受长达几秒钟的延时,则更适合用通用语言模型。而混合推理模型,则可以按需开启/关闭推理思考过程。

在以上几种典型用途分类之外,还有通过强化学习等手段,专门对编码能力做了增强的Coder模型,比如Qwen3-Coder等,还有数学增强,还有SQL增强等等。

图片

本系列说明:笔者结合实际项目经验,从落地AI的视角出发,按照LLM、RAG、Agent、Training这样的顺序梳理一套基础技术体系,对应投入和落地难度从小到大,欢迎持续关注。

—End—