深度拆解 CLIP：连接文本与视觉的语义桥梁深度拆解 CLIP：连接文本与视觉的语义桥带 CLIP (Contrasti

深度拆解 CLIP：连接文本与视觉的语义桥带

CLIP (Contrastive Language-Image Pre-training) 是现代生成式 AI（如 Stable Diffusion, DALL-E 3, Flux）的灵魂。它通过将图片和文字映射到同一个数学空间，解决了机器“如何理解人类语言并对应到视觉形象”的终极难题。

CLIP 本质上是一个“双塔”模型，由两个独立的特征提取器组成，它们各司其职，最后在同一个“语义会客厅”汇合。

工作逻辑：像读文章一样读图片。
步骤：
1. 切片：将图片切成固定大小的方块（Patches，如 $16 \times 16$ ）。
2. 投影：将方块拉平并转化为向量。
3. 自注意力：让每个方块观察其他方块，理解全局构图（例如：猫耳在猫头的上方）。
层数规格：从基础的 12 层 (ViT-B) 到顶尖的 32 层 (ViT-H)。

Transformer 本身是“无序”的，它不知道谁在前谁在后。CLIP 引入了位置编码来解决这个问题。

实现方式：可学习的绝对位置编码。
为什么是“绝对”？ 模型为 1 到 77 每个位置准备了一个固定的“工位向量”。模型在训练中死记硬背下：“0 号工位通常是句首，7 轴 7 步的图片块通常是中心”。
为什么不用公式计算？ 学习而来的编码能捕捉到不均匀的特征（例如图片中心比边缘更重要），表达能力更强。
副作用：这导致了 CLIP 非常“死板”。超过 77 个词会被截断，分辨率变了模型就会“迷路”。

图像编码器输出的维度（如 1024）和文本编码器输出的维度（如 512）通常不一致。为了让它们能计算相似度，CLIP 引入了投影层。

逻辑：模型不再进行分类预测，而是进行“匹配预测”。
步骤：
1. 将图片变成向量 $I$ 。
2. 将候选词（如“猫”、“狗”）填入模板“一张[X]的照片”并变成向量 $T_1, T_2$ 。
3. 计算 $I$ 与各个 $T$ 的余弦相似度，得分最高者即为答案。

在文生图流程中，CLIP 充当了语义导航员：

输入：你的 Prompt。
输出：一组包含位置信息的语义向量。
作用：这些向量作为“条件注入（Conditioning）”喂给 DiT。DiT 在降噪过程中会不断对照这些向量，确保洗出来的“噪声”符合 CLIP 定义的语义坐标。