一、模型分类
生成式 AI
├─ 大语言模型(LLM)→ 可完成分析式任务(文本分类/情感分析)
├─ 视觉大模型(VLM)→ 可完成分析式任务(图像分类/OCR)
└─ 多模态大模型(MLLM)→ 可完成分析式任务(视频理解/语音识别)
分析式 AI(传统判别模型)
├─ 图像分类、风控预测、推荐系统等
└─ 不具备原生内容生成能力
1.1大语言模型
1.1 .1模型分类详解
- 大语言模型(LLM)
- 全称:Large Language Model
- 核心能力:专注于文本理解与生成,具备强大的语言推理、对话、创作、代码等能力
- 代表模型:DeepSeek、Qwen3、OPT-4-turbo、GPT-4o、Gemini 1.5、Llama 3
- 视觉大模型(VLM)
- 全称:Vision-Language Model(视觉语言模型)
- 核心能力:融合视觉与语言,实现图像理解、图文问答、视觉检索等功能,是连接图像与文本的桥梁
- 代表模型:CLIP、BLIP-2、LLaVA、Qwen-VL、DeepSeek-VL2、GPT-4V、Gemini 系列
- 多模态大模型
- 全称:Multimodal Large Language Model(MLLM)
- 核心能力:支持文本、图像、音频、视频等多种模态的统一理解与生成,可处理更复杂的跨模态任务
- 代表模型:GPT-4o、Gemini 系列、Qwen-VL、LLaVA、Emu3.5、智谱 GLM-4V
三者关系
- LLM 是基础,专注纯文本交互
- VLM 是 LLM 的视觉扩展,聚焦图文交互
- 多模态大模型 是更高级形态,可同时处理文本、图像、音频、视频等多种模态,是当前大模型发展的主流方向
| 分类 | 英文全称 | 核心能力 | 典型输入 / 输出 | 代表模型 | 应用场景 |
| 大语言模型(LLM) | Large Language Model | 纯文本理解、生成、推理、对话、创作、代码 | 输入:文本输出:文本 | GPT-4o、Gemini 1.5、Llama 3、Qwen3、DeepSeek | 聊天对话、内容创作、代码开发、知识问答、文本摘要、翻译 |
| 视觉大模型(VLM) | Vision-Language Model | 图文跨模态理解、图像描述、视觉问答、图文检索 | 输入:文本 + 图像输出:文本 / 图像 | LLaVA、Qwen-VL、DeepSeek-VL2、CLIP、BLIP-2 | 图像识别、图文问答、视觉检索、OCR、图像内容理解 |
| 多模态大模型(MLLM) | Multimodal Large Language Model | 多模态统一理解与生成,支持文本、图像、音频、视频等 | 输入:文本 + 图像 + 音频 + 视频输出:文本 / 图像 / 音频 / 视频 | GPT-4o、Gemini 系列、Qwen-VL、Emu3.5 | 视频理解、语音交互、多模态创作、复杂场景推理、沉浸式交互 |
关键差异总结
- 模态范围:LLM 仅处理文本 → VLM 处理图文 → MLLM 处理多模态(文本 / 图像 / 音频 / 视频)
- 能力侧重:LLM 是语言能力核心,VLM 是视觉与语言的桥梁,MLLM 是更全面的通用智能形态
- 技术演进:LLM → VLM → MLLM 是大模型从单一文本到多模态融合的典型发展路径
💡 补充说明
- 部分模型(如 GPT-4o、Gemini 1.5)同时属于 LLM 和 MLLM,因为它们在保留强文本能力的基础上,扩展了多模态能力。
- VLM 可视为 MLLM 的子集,是多模态能力中最成熟的图文交互形态。
1.1.2 模型选型【modelscope.cn/my/overview】
| 应用场景 | 推荐模型类型 | 优先选择的代表模型 | 选型理由 |
| 纯文本对话 / 写作 / 代码 | LLM | GPT-4o、Gemini 1.5、Llama 3、Qwen3、DeepSeek | 文本理解与生成能力最强,响应速度快,成本更低 |
| 图文问答 / 图像理解 / OCR | VLM / MLLM | LLaVA、Qwen-VL、DeepSeek-VL2、GPT-4V | 专注图文交互,图像解析精度高,适合轻量化视觉任务 |
| 视频理解 / 语音交互 | MLLM | GPT-4o、Gemini 系列、Qwen-VL | 原生支持视频帧分析、语音转文本及多模态推理 |
| 多模态内容创作(图文 / 音视频) | MLLM | Emu3.5、GPT-4o、Gemini 系列 | 支持文本生成图像 / 视频、图像生成文本等跨模态创作 |
| 本地部署 / 低资源环境 | 轻量 LLM/VLM | Llama 3-8B、Qwen-7B、LLaVA-7B | 参数量小,可在消费级 GPU/CPU 上运行,隐私性好 |
| 企业级 API 调用 | 商用 MLLM | GPT-4o、文心一言 4.0、通义千问 4.0 | 稳定性高、接口完善、有企业级服务支持 |
1.1.3🚀 大语言模型(LLM)完整训练流程
大模型的训练通常分为 预训练 → 监督微调 → 对齐学习(强化学习等) 三个核心阶段,部分模型还会加入后续优化步骤:
- 预训练(Pre-training)
- 目标:让模型学习通用语言知识和基础规律
- 数据:海量无标注文本数据(书籍、网页、代码等)
- 方法:自监督学习(Next Token Prediction,预测下一个词)
- 结果:得到基座模型(Base Model),能续写文本,但不会 “听懂人话”
- 监督微调(Supervised Fine-Tuning, SFT)
- 目标:让模型学会遵循人类指令,完成具体任务
- 数据:高质量指令 - 回答对(人工标注或精选对话)
- 方法:有监督学习,用指令数据微调基座模型
- 结果:得到SFT 模型,能理解指令、生成符合要求的回答
- 对齐学习(Alignment Learning)
这一步是让模型更 “听话、安全、有用”,主流有两种方式:
- 强化学习(RLHF / PPO)
-
- 先训练奖励模型(RM):对模型输出打分,判断 “是否更像人类偏好”
- 再用 PPO 算法:让 SFT 模型向高分方向优化,生成更符合人类价值观的回答
- 直接偏好优化(DPO / KTO)
-
- 更高效的替代方案:直接用 “偏好数据”(好回答 vs 坏回答)微调,跳过奖励模型
- 结果:得到对齐模型(Chat Model),也就是我们日常使用的对话大模型
- 后续优化(可选)
- 持续预训练:补充新领域数据,提升垂直领域能力
- 蒸馏(Distillation):把大模型压缩成小模型,方便部署
- 工具调用微调:让模型学会调用计算器、搜索引擎等外部工具
- 多模态扩展:加入图像、音频、视频模态训练,成为多模态大模型
📝 流程总结
预训练(基座模型) → 监督微调(SFT模型) → 对齐学习(RLHF/DPO) → 对话大模型
| 阶段 | 常用名字 | 做什么(一句话) | 输入数据 | 输出模型 |
| ① | 预训练Pre-training | 学语言、知识、规律,打下基础 | 海量无标注文本 | 基座模型 Base LLM |
| ② | 监督微调SFT | 学会听懂指令、正常对话 | 指令 - 回答对(问答数据) | SFT 模型 |
| ③ | 奖励模型训练Reward Modeling | 教模型 “什么回答更好” | 好坏对比回答 | 奖励模型 RM |
| ④ | 强化学习RLHF / PPO | 让模型越说越像人、更安全 | 奖励模型打分 | 对齐后的对话模型 |
| ⑤ | DPO/you 好直接对齐(可选) | 替代强化学习,更简单 | 偏好对比数据 | 最终对话模型 |
📝 流程总结
预训练(基座模型) → 监督微调(SFT模型) → 对齐学习(RLHF/DPO) → 对话大模型
1.1.4 技术方向
- 生成式AI与分析式AI
生成式AI以LLM、多模态模型为核心,聚焦文本、图像、音视频等内容的生成与创作,具备创造性能力;分析式AI侧重数据的识别、分类、预测与判断,是传统AI的核心形态,二者协同支撑各类AI应用落地。
- Function call(函数调用)
核心是让大模型根据用户需求及任务场景,自动识别并调用外部工具、接口或函数,完成查询、计算、数据交互等实际操作,打通模型能力与现实任务的衔接。
- MCP模型上下文协议
作为模型间、模型与系统间的标准化通信协议,主要用于统一传递上下文信息、任务状态、历史交互记录等,提升多模型协作的一致性与效率,降低系统集成成本。
- RAG检索增强生成
融合检索与生成两大核心能力,先通过检索模块从外部知识库、数据库中获取精准相关信息,再输入大模型进行整合生成,有效解决模型“幻觉”问题,提升回答的准确性与可溯源性。
- Embedding通用技术
将文本、图像、音频等非结构化数据,转化为计算机可识别、可计算的向量表示,是语义检索、相似度匹配、数据分类、聚类等各类AI任务的基础支撑技术。
- Prompt工程(提示词工程)
通过科学设计提示指令,包括角色设定、任务描述、格式约束、逻辑引导等,充分激发大模型的能力,优化输出质量与准确性,降低模型使用门槛。
- Agent开发(智能体开发)
依托大模型的推理能力,赋予其自主规划、记忆管理、工具调用、多步决策的能力,开发可独立完成复杂、多步骤任务的AI智能体,拓展AI的应用边界。
1.1.5 名词解释
- token(令牌)
大模型处理文本的最小单位,可理解为“词元”,单个汉字、英文单词、标点符号或片段都可能作为一个token,模型的输入输出长度、计费均以token为单位。
- temperature(温度)
控制大模型输出随机性的参数,取值范围0~1。值越高,输出越随机、有创意;值越低,输出越确定、严谨,趋近于固定答案。
- Transformer
大模型的核心基础架构,基于自注意力机制设计,能够高效捕捉文本、图像等数据的上下文关联,是当前LLM、多模态模型的核心技术支撑。
- topP(核采样)
与temperature配合使用的输出控制参数,又称“累积概率采样”,通过设定一个概率阈值(0~1),仅从概率累积和达到该阈值的候选token中采样,平衡输出的多样性与合理性。
- 联网搜索
大模型获取外部实时信息的能力,通过调用搜索引擎接口,检索最新、未包含在模型训练数据中的内容,解决模型“知识滞后”问题,提升回答的时效性。
- 模型局限
大模型自身存在的固有不足,主要包括知识滞后(受训练数据截止时间限制)、生成幻觉(输出虚假但看似合理的内容)、逻辑谬误、对复杂任务的推理能力有限,以及存在偏见(受训练数据中潜在的偏见信息影响,可能输出带有性别、种族、职业等偏见的内容)等。
- RAG(检索增强生成)
全称Retrieval-Augmented Generation,融合检索与生成的技术,先从外部知识库检索与问题相关的精准信息,再输入大模型整合生成回答,核心是解决模型幻觉、提升回答准确性。
- prompt(提示词)
用户输入给大模型的指令、问题或引导语,是大模型理解任务需求的核心依据,优质的prompt可有效激发模型能力,优化输出效果(对应前文Prompt工程)。
- functioncall(函数调用)
大模型根据用户需求,自动识别并调用外部工具、接口或函数,完成查询、计算、数据交互等实际任务,打通模型能力与现实场景的衔接(对应前文Function call技术方向)。
- 上下文(不同模型上下文大小限制不同,在100~200k左右)
用户与大模型的历史交互记录、当前输入的指令及相关信息,大模型通过读取上下文,理解对话逻辑、保持回答的连贯性与一致性。
- Agent(智能体)
基于大模型开发的具备自主能力的AI实体,能够自主理解任务、规划步骤、管理记忆、调用工具,实现多步推理,可独立完成复杂、连贯的任务(对应前文Agent开发技术方向)。