当AI学会“看图说话”，从 CLIP 到 LLaVA/Qwen：揭秘多模态大模型（MLLM）的“视觉基石”当AI学会“看

当AI学会“看图说话”，从 CLIP 到 LLaVA/Qwen：揭秘多模态大模型（MLLM）的“视觉基石”

温馨提示：文末有我们最喜欢的两个：经典环节1--人话总结，经典环节2--测验环节；可快速了解本篇论文CLIP。

引言：多模态 AI 的“寒武纪大爆发”

在今天，当我们惊叹于 GPT-4V 能看懂梗图，Qwen-VL 能精准定位物体，或者 LLaVA 能流畅地描述画面时，我们其实正在见证一场 AI 的“物种进化”。

这些强大的模型统称为 MLLM（Multimodal Large Language Model，多模态大语言模型） 。但你是否想过，原本只懂文字的 LLM（如 LLaMA 或 Qwen），是突然有了“眼睛”的？

这一切的起点，要追溯到 OpenAI 在 2021 年发布的一个颠覆性模型——CLIP。

在 CLIP 出现之前，计算机视觉（CV）是一座孤岛，模型只能识别预先定义好的“猫、狗、车”。

CLIP (2021) 打通了任督二脉，它第一次学会了将图像映射到文本的语义空间，让 AI 真正“看懂”了图片内容。
随后，BLIP 系列进一步优化了这种图文对齐的效率。
接着，LLaVA 和 MiniGPT-4 巧妙地将 CLIP（作为视觉编码器）与强大的 LLM 缝合在一起，让 AI 不仅能“看”，还能“聊”。
如今的 Qwen-VL 等模型，依然在沿用或改进这种“视觉编码器 + 语言模型”的架构范式。

可以说，不理解 CLIP，就无法真正看懂今天的多模态大模型。

今天，我们重读 CLIP 的原始论文，为你提炼出 5个颠覆直觉的核心启示。这不仅是技术的考古，更是理解未来 AGI 视觉认知的必修课。👇

01. 零样本学习：没学过，也能认得准

核心概念：Zero-Shot Transfer（零样本迁移）

传统模型是“教什么考什么”，而 CLIP 开启了 VLM 时代的“举一反三”。

简单来说，零样本迁移就是模型在从未接受过特定类别训练的情况下，仅凭对该类别的自然语言描述，就能准确识别物体。这正是现代 MLLM 能应对开放世界问题的基础。

📊 数据说话： 论文中最具冲击力的结果显示：

最强大的 CLIP 模型在完全不使用 ImageNet 训练集（128万张图）的情况下，在测试集上的准确率达到了 76.2%。

这足以媲美一个经过完整监督训练的经典 ResNet-50 模型！这意味着 AI 彻底摆脱了“死记硬背”，开始具备通用的视觉理解能力。

02. 训练的悖论：专精反而脆弱？

核心概念：Robustness vs. Overfitting（稳健性 vs 过拟合）

对于 MLLM 来说，我们最想要的是泛化能力。

研究人员做了一个违反直觉的实验：他们尝试让 CLIP “入乡随俗”，用 ImageNet 的数据集对其进行专门的微调（Fine-tuning）。

结果令人大跌眼镜： 😱

在 ImageNet 本家测试集上，准确率确实提升了 9.2%。
但在另外 7 个测试“自然分布偏移”的数据集上，平均准确率不升反降！

💡 启示： 在一个精心策划的“温室”数据集上过度训练，会让模型学会该数据集特有的“怪癖”（Overfitting）。这解释了为什么现在的 Qwen-VL 或 GPT-4V 都倾向于使用海量且多样化的数据，而不是死磕单一任务——因为“博学”比“专精”更重要。

03. 描述胜于展示：语言的力量

核心概念：Language Supervision > Few-Shot（语言监督优于小样本）

直觉告诉我们：给 AI 看几张照片（小样本学习），效果应该比只给它一句话（零样本学习）要好吧？

CLIP 说：不一定。 🚫

论文发现，零样本 CLIP（只给文本描述）的性能，竟然等同于为每个类别提供 4 张带标签图片的分类器（4-Shot）。

为什么？ 因为图像是含糊的（多义性），而语言是精确的。这一发现直接奠定了 LLaVA 等模型的基础逻辑：用强大的语言模型（LLM）去引导视觉理解，是比单纯堆砌视觉数据更高效的路径。

04. 规模的力量：4亿互联网“师生对”

核心概念：Contrastive Pre-training（对比式预训练）

CLIP 的强大，源于它抛弃了人工标注，转而拥抱互联网的汪洋大海。

OpenAI 构建了一个包含 4亿个（图片，文本）配对 的数据集（WIT）。训练的任务非常简单且优雅——对比学习。

用数学语言来描述，假设我们有一个图像和一段文本，模型通过编码器将它们映射到向量空间，目标是最大化匹配对的余弦相似度（Cosine Similarity）：

模型不需要逐字逐句生成文本，只需要在混杂的图文中，通过对比找出正确的那一对。这种高效的训练方式，后来也被 SigLIP 等后续工作进一步发扬光大。

05. 提示工程：如何优雅地与 AI 对话

核心概念：Prompt Engineering（提示工程）

CLIP 不仅看图，更看重你如何“提问”。这也是如今大家在使用 ChatGPT 或 Midjourney 时必须掌握的技能雏形。

论文揭示了一个有趣的现象：Prompt 的形式直接决定了准确率。

❌ 青铜问法：直接给标签 {'cat'}。模型可能会困惑，这是名词？动词？
✅ 王者问法："A photo of a {cat}."（一张{猫}的照片）。

仅仅是加上这句简单的模板，准确率就提升了 1.3% 。如果你使用提示集成（同时问它“一张大的{猫}”、“一张小的{猫}”等），性能甚至能提升 3.5%！

这标志着人机交互模式的转变：我们不再是数据灌输者，而是成了 Prompt Engineer（提示工程师） 。

结语：通往 AGI 的视觉钥匙

CLIP 不仅仅是一个更强的分类器，它证明了：将图像映射到语言空间，是实现通用人工智能（AGI）的必经之路。

正是站在 CLIP 的肩膀上，我们才有了今天能看图写诗、能理解复杂场景的 LLaVA 和 Qwen。当 AI 开始通过语言真正理解视觉世界时，一个新的时代已经悄然来临。

🧠 经典环节1 -- 人话总结

简单来说，作为 MLLM 的鼻祖，CLIP 干了这么几件事：

打通图文：以前图是图，文是文；CLIP 把它们拉到一个群里，让 AI 明白“猫的照片”和“猫的像素”是一回事。这成为了后来所有多模态模型的基础。
告别“人工喂饭” ：它直接去网上爬了 4亿对 图文，像人类上网冲浪一样自学，不再依赖人工打标签。
拒绝“高分低能” ：研究发现，非逼着它死磕某个题库（微调），反而会变傻。保持“通识教育”让它在面对未知世界时更稳健。
学会“对暗号” ：想让它认得准，你得会聊天。加一句简单的 “这是一张...” ，效果堪比喂好几张例图——这就是最早的“提示词工程”。

🧠 经典环节2 -- 随堂测试：你真的读懂 CLIP 了吗？

以下是 5 道测试题，答案已隐藏，点击下方按钮即可查看。

1. 关于“零样本迁移学习”（Zero-Shot Transfer），以下描述最准确的是？ A. 模型需要至少看一张该类别的图片才能识别 B. 模型通过预先定义的1000个类别标签进行训练 C. 模型从未接受过特定类别的训练，仅凭语言描述即可识别物体 D. 模型在 ImageNet 上训练后，直接应用到 ImageNet 测试集

答案：C

解析： 零样本学习的核心在于“Zero”——即在推断阶段之前，模型从未见过该特定类别的样本。CLIP 通过理解自然语言描述（如“一张猫的照片”）与图像的关联，从而能够识别从未在训练中被明确标记为“猫”的图像。这正是现代 VLM 泛化能力的来源。

2. 为什么在 ImageNet 上对 CLIP 进行微调（Fine-tuning）后，其在其他数据集上的表现反而下降了？ A. 因为微调的数据量太少 B. 因为模型出现了“灾难性遗忘”，过度拟合了 ImageNet 的特征分布 C. 因为 ResNet-50 架构本身不支持微调 D. 因为 CLIP 模型无法进行反向传播更新

答案：B

解析： 这就是文中所述的“训练悖论”。专门针对 ImageNet 这种特定分布的数据集进行训练，虽然提升了在该数据集上的表现，但牺牲了模型的通用性（稳健性），导致面对真实世界多样化数据（自然分布偏移）时效果变差。这被称为对特定分布的过拟合（Overfitting to a specific distribution）。

3. 根据 CLIP 的研究，以下关于“语言描述”与“小样本图像”的对比，哪项是正确的？ A. 4张带标签的图片训练效果远好于一句文本描述 B. 零样本 CLIP（仅凭文本）的性能相当于 4-Shot（4张图片）分类器 C. 语言描述含糊不清，不如图像直观 D. 只有在 16-Shot 以上，语言描述才开始生效

答案：B

解析： 这是一个反直觉的发现。论文指出，零样本 CLIP 的性能与在一个在 CLIP 特征上训练的 4 样本（4-Shot）分类器相当。这是因为语言能够更精确、无歧义地定义视觉概念，而从少量图片中归纳概念往往带有不确定性。这也是为什么 LLaVA 等模型强调指令微调（Instruction Tuning）的重要性。

4. CLIP 采用了什么样的训练策略来实现高效学习？ A. 像素级生成（Pixel-level Generation） B. 掩码语言模型（Masked Language Modeling） C. 对比式预训练（Contrastive Pre-training） D. 强化学习（Reinforcement Learning）

答案：C

解析： CLIP 并没有让模型去生成图片或文本（这是后来 DALL-E 或 GPT-4 做的事），而是采用了对比学习（Contrastive Learning）。模型需要判断哪张图片和哪段文本是配对的（正样本），并拉大它们在向量空间中的距离与错误配对（负样本）的距离。这种方法在大规模数据上效率极高。

5. 所谓的“提示工程”（Prompt Engineering）在 CLIP 中主要起到了什么作用？ A. 减少了模型的计算量 B. 通过将标签放入自然语言语境（如"A photo of a..."），帮助模型更好理解，提升准确率 C. 自动筛选出错误的图片数据 D. 替代了模型的反向传播过程

答案：B

解析： 提示工程解决了多义性问题。单独的一个词（如"Boxer"）可能是拳击手，也可能是狗。通过将其放入句子模版（"A photo of a boxer, a type of dog"），我们引导模型进入正确的上下文语境，从而显著提升了分类的准确率。

本期作者: JackLi，算法研究员，大厂算法工程师，热爱paper解读，技术和工具分享。全网唯一账号：“心眸AI笔记”

喜欢本文？持续关注！欢迎点赞、在看、转发，一起探索 AI的底层逻辑和拥抱AI。