多模态模型Transformer架构：从视觉到融合本文探讨了从计算机视觉模型到现代多模态模型（如CLIP、ViLT）的演

前言

在AI发展的很长一段时间里，不同模态的任务通常由不同类型的模型来处理，比如：

NLP（自然语言处理）领域主要依赖RNN来捕捉文字序列中的语义信息；
CV（计算机视觉）则长期使用CNN提取图像的局部特征，并广泛应用于分类、检测、分割等任务。

这些模型在各自领域都取得了显著成果，但也存在局限——RNN难以处理长序列依赖，CNN则难以建模全局信息。

2017年，Transformer架构首次被提出，它打破了这一局面。Transformer凭借自注意力机制实现了对全局信息的高效建模，迅速成为NLP领域的核心技术，并推动了大型语言模型（LLM）的发展。而且，它的统一架构和强大表达能力也迅速被计算机视觉和多模态领域采纳。如今，Transformer不仅支撑起从文本、图像到视频等多种模态的处理，还成为多模态模型的核心架构，能够融合图文问答、自动驾驶中的多传感器输入等多种信息源。

本文将介绍多模态模型的演变过程，并重点探讨Transformer在这一进程中的关键应用。通过分析这些进展，我们可以更清晰地看到AI技术如何从针对特定任务的“专才”走向可以跨领域处理复杂问题的“通才”，迈向更加统一和强大的新阶段。

一、计算机视觉模型的演进

1.1 CNN：图像特征提取的基石

在Transformer进入视觉领域之前，卷积神经网络（CNN）是计算机视觉（CV）任务的核心技术。自1980年代提出以来，CNN凭借其强大的局部特征提取能力，在图像分类、目标检测、图像分割等任务中广泛应用，成为视觉识别的“标准工具”。

工作原理：从局部特征提取到全局理解

CNN的核心在于卷积层和池化层的组合，它们逐层提取图像的高阶特征。在此基础上，CNN还融合了神经网络的学习机制，通过不断优化参数，进一步提升了模型在图像识别任务中的效率与准确性。

卷积	池化

一个典型的CNN架构通常包含以下几个关键部分：

输入：图像以像素矩阵（或多通道张量）的形式输入到网络中。每个通道的像素值通常在0～255之间，表示颜色强度；例如，灰度图像是单通道矩阵，而RGB图像则包含三个通道。
卷积层：通过一个小型矩阵（如3×3）作为卷积核，在输入图像上滑动并执行加权求和操作，以提取局部特征，比如边缘、纹理等。卷积核的权重是可学习的参数，这意味着在网络训练过程中，这些权重会不断调整，以便更好地捕捉图像中的重要特征。
激活函数：卷积操作后通常跟随一个非线性激活函数（如ReLU），这一步对于引入非线性至关重要，因为大多数实际世界中的数据是非线性的。激活函数决定了一个神经元是否应该被激活，为下一层提供更丰富的信息。
池化层：此层通过下采样操作（如最大池化）缩小图像尺寸，保留主要特征的同时减少计算量，有助于控制过拟合并提高模型的泛化能力。
全连接层：经过一系列卷积层和池化层后，通常会有一个或多个全连接层，用于将前面提取的特征映射到具体的输出类别上。在这里，每个节点都与前一层的所有节点相连，形成一个典型的神经网络结构。
输出：最终输出通常是分类任务中的概率分布，表明输入图像属于各个类别的可能性。

基于这一架构，CNN通过反向传播算法与梯度下降法进行训练，不断调整各层参数，以逐步提升模型的识别精度和泛化能力。

首先，初始化所有卷积核和全连接层的权重，然后通过前向传播计算当前网络的输出。
接下来，使用损失函数（如交叉熵损失）衡量预测值与真实标签之间的差异，并通过反向传播算法更新每一层的权重，使得损失最小化。
这个过程反复迭代，直到网络达到满意的性能水平。

如果想更直观地理解 CNN 的工作原理，可以借助在线可视化工具进一步探索。例如CNN Explainer，它提供了一个互动式的CNN工作流程展示。

示例：MNIST手写数字识别

以经典的MNIST手写数字识别任务为例：输入一张手写数字图片，CNN通过多层卷积与池化操作逐步提取图像特征并缩小尺寸，最终输出分类结果。

具体流程如下：

输入层：原始图像为28×28像素的灰度图。
卷积层1：使用5×5像素的卷积核，设置n1个通道，每个通道独立提取不同特征。该层共有n1×25个参数，生成n1张24×24像素的新图片，每张图片描述原图的不同局部特征。
池化层：采用2×2像素的最大池化矩阵，将特征图尺寸缩小至12×12像素，保留关键信息的同时减少计算量。
卷积层2：再次使用5×5像素的卷积核，设置n2个通道，基于缩小后的特征图进一步提取更复杂的特征，生成n2张8×8像素的新图片。
池化层：同样采用2×2像素的最大池化矩阵，将特征图尺寸进一步缩小至4×4像素。
扁平化层：将所有特征图展开成一维向量，得到包含n3个神经元的全连接层。
全连接层：通过多个全连接层计算出0～9数字的概率分布，最终输出识别结果。

这个过程就像一层层“抽象”，从像素到边缘，再到数字的整体结构。

影响和意义

CNN的成功源于其几个关键特性，这些特性使其特别适合处理图像数据：

局部感受野：通过关注图像的局部区域，CNN能够有效地提取空间结构特征，比如边缘和纹理。这种机制模拟了人类视觉系统的工作方式，使得模型可以从局部逐步构建到全局的理解。
参数共享：每个卷积核在整个图像上滑动以检测特定类型的特征，这意味着无论在图像何处，只要模式匹配，它都能识别出来，同时减少了需要学习的参数数量。
平移不变性：由于参数共享，即使物体在图像中的位置发生变化，CNN也能够保持较高的识别性能，因为同一个特征检测器可以在整个图像中寻找相同的模式。

因此，CNN长期作为视觉领域的主流框架，为许多计算机视觉任务提供了坚实的基础，并推动了从图像分类、目标检测到语义分割等多个应用领域的快速发展。

1.2 ResNet：残差网络的突破

ResNet（Residual Network）于2015年由微软研究院的何恺明等人提出，通过引入跳跃连接和残差学习机制，解决了深层网络训练中的梯度消失问题。

Deep Residual Learning for Image Recognition

背景：深层网络训练中的梯度消失问题

CNN 是一种典型的深层神经网络，通常由多个卷积层与池化层交替堆叠构成，形成一个层次化的特征提取结构。通过这种结构，CNN 能够从输入图像中逐步提取出由简单到复杂的高阶特征。例如，经典的 VGGNet 就是一个典型的深层 CNN 模型，其 VGG16 和 VGG19 分别包含 16 层和 19 层，均由多个连续的卷积层和池化层堆叠而成，实现了对图像语义信息的逐层抽象。

随着深度学习的发展，研究人员发现，增加网络深度（即增加层数）可以显著提升模型的表达能力和性能。然而，这一思路在实践中遇到了挑战：当网络层数增加到一定程度时，训练过程中会出现梯度消失（Gradient Vanishing）或梯度爆炸（Gradient Explosion）等问题，导致模型难以收敛，甚至在训练初期就出现性能停滞，这极大地限制了模型的学习能力。

核心创新：跳跃连接 + 残差学习机制

为了解决深层网络训练中的梯度消失问题，ResNet 引入了跳跃连接（Skip Connection）和残差学习（Residual Learning）机制。

跳跃连接的基本思想是：在神经网络中，将某一层的输入直接跳过若干层，加到后面的层的输出上。这种结构允许信息和梯度在不同层之间直接传递，缓解了梯度消失的问题。

其数学表达如下：

$H(x)=F(x)+x$

其中：

$F(x)$ 是网络需要学习的残差函数；
$x$ 是输入；
$H(x)$ 是最终的输出。

换句话说，ResNet不是直接学习目标函数 $H(x)$ ，而是学习其与输入 $x$ 的差值 $F(x)=H(x)−x$ 。这种“残差学习”的方式使得网络更容易优化，因为即使网络层间没有学到任何新信息（即 $F(x)=0$ ），输出也能保持为输入 $x$ ，从而保证了网络的稳定性。

我们可以把 ResNet 的“残差学习”想象成在一张已有草图的基础上进行修改，而不是从头开始画一幅全新的图。

传统神经网络：
- 每一层都在试图直接学习“最终应该输出什么”，就像从头开始画一张完整的新图。
- 随着网络变深，这个过程变得越来越难，容易出现训练不稳定、效果变差等问题。
ResNet 残差网络：
- 每一层只需要学习“在现有基础上需要修改什么”，也就是输出与输入之间的“差异”。相当于提供一张原图，只需在原图基础上进行修改，通过原图叠加修改内容就得到最终的新图。
- 即使网络在这一层什么都没学到（即 $F(x)=0$ ），结果也至少保留了原来的草图，不会变得更差。
- 这种设计让网络更容易训练，也更适合堆叠很多层，从而构建出非常深的模型。

影响与意义

ResNet 是卷积神经网络发展史上的一个里程碑式成果。它通过简单而巧妙的跳跃连接（skip connection）与残差学习机制，有效缓解了深层网络训练中常见的梯度消失问题，使构建和训练超深网络成为可能。

ResNet 首次实现了多达 152 层甚至更深的网络结构，并在 ImageNet 等竞赛中取得了优异性能，证明了跳跃连接与残差模块能够显著提升深层模型的可训练性，避免优化困难。
它的提出标志着深度学习正式迈入“超深网络”时代，为后续模型如 DenseNet、EfficientNet 等的设计提供了重要的理论支持与实践经验。

ResNet 的影响不仅局限于 CNN 领域，还深远地启发了其他架构的发展。例如，Transformer 中广泛使用的 “残差连接 + 层归一化”（Add & Norm）机制，正是借鉴了 ResNet 的设计理念。通过在每个子层中引入残差连接，再配合层归一化操作，有效缓解了梯度消失问题，从而在处理长序列任务时保持良好的梯度流动与模型稳定性。

可以说，ResNet 不仅推动了传统 CNN 的演进，也成为连接 CNN 与现代视觉 Transformer 的关键桥梁，在深度学习的发展历程中具有承前启后的意义。

二、Transformer架构的引入：从ViT到Swin Transformer

2.1 Transformer架构的提出：NLP领域的革命性突破

Transformer架构最早由Google团队在2017年的论文《Attention Is All You Need》中提出，它的出现彻底改变了自然语言处理（NLP）领域。

RNN：序列建模的早期基石

自20世纪90年代以来，NLP领域主要依赖于循环神经网络（RNN）来处理自然语言序列。

RNN通过循环结构来捕捉序列中的语义信息，其核心计算过程包括以下几个步骤：

输入层：接收一个词或字符的向量表示；
隐藏层：每个时间步的输出由当前输入和前一时间步的隐藏状态经过非线性变换与递归计算得到。
输出层：基于最后一个时间步的隐藏状态生成输出。

RNN 的核心特性在于其时间递归处理机制，允许模型按时间步依次处理序列数据，从而能够有效处理任意长度的序列，在自然语言处理等序列建模任务中展现出独特优势。

尽管RNN能够处理序列数据，但它存在一些显著的局限性：

长距离依赖问题：随着序列长度增加，RNN难以有效地捕捉序列两端之间的依赖关系，即“梯度消失”问题；
训练效率低：由于需要顺序处理每一个时间步的数据，RNN的并行化能力较差，导致训练速度慢；
固定上下文窗口：对于非常长的序列，RNN的有效记忆范围有限，无法很好地建模全局信息。

对此，研究者们提出了多种改进模型，如LSTM（长短期记忆网络）和GRU（门控循环单元）。这些变体通过引入复杂的门控机制，在很大程度上缓解了梯度消失的问题，并显著增强了对长序列依赖的处理能力。然而，RNN及其变体仍然存在一些固有的局限性：串行处理限制使得它们难以高效地处理长序列或利用现代硬件的并行计算能力；上下文捕捉不充分，特别是在需要全局理解的任务中表现不佳。

基于这些限制，长久以来，NLP领域在模型性能和训练效率方面进展相对缓慢，难以与计算机视觉等其他领域并驾齐驱。

Transformer：开启全局感知的革命性架构

Transformer架构摒弃了传统的串行处理模式，采用了自注意力机制（Self-Attention Mechanism），允许模型直接关注输入序列中的任意位置，无需逐个时间步地处理数据。这种设计不仅极大地提高了处理速度和效率，还赋予了模型全局感知能力，使其能够更好地理解和处理复杂语言结构中的长距离依赖关系。随着Transformer在多种自然语言处理任务中展现出卓越性能，它逐渐取代了RNN及其变体，成为NLP领域的主流架构。

Transformer架构的关键组成部分及其工作原理如下：

输入嵌入（Input Embedding） ：原始输入（如单词序列）首先通过嵌入层转换为固定维度的向量表示，每个词被映射到一个高维空间中的向量。
位置编码（Positional Encoding） ：由于Transformer没有递归结构，无法自然地捕捉序列中元素的位置信息。因此，额外添加了位置编码到输入嵌入中，以保留输入序列的顺序信息。位置编码通常使用正弦和余弦函数生成，也可以学习得到。
编码器（Encoder）
- 自注意力机制（Self-Attention Mechanism） ：每个输入向量都会与其他所有输入向量计算注意力分数，形成一个加权和，作为该位置的新表示。这样可以让模型关注整个输入序列的信息。多头注意力（Multi-Head Attention）进一步增强了模型的能力，允许在不同的子空间中同时学习多个不同的特征表示。
- 前馈神经网络（Feed-Forward Neural Networks, FFN） ：每个位置经过自注意力机制处理后，会通过一个两层的全连接前馈神经网络，中间包含激活函数（如ReLU），以增强非线性表达能力。
- 残差连接与层归一化（Residual Connections and Layer Normalization） ：在每个子层（自注意力和前馈神经网络）之后，都会加上残差连接，并应用层归一化，确保梯度稳定传播，支持更深的网络结构。
解码器（Decoder）
- 掩码自注意力机制（Masked Self-Attention Mechanism） ：为了防止解码时“看到未来”的信息，在解码器中使用了掩码自注意力机制。这意味着在每个时间步，只能依赖于当前及之前的输入进行预测。
- 编码器-解码器注意力机制（Encoder-Decoder Attention） ：解码器中的另一个注意力层用于查询编码器的所有输出，帮助解码器更好地理解输入序列的整体信息，从而生成更准确的输出。
- 前馈神经网络（Feed-Forward Neural Networks, FFN） ：同样地，解码器也包含前馈神经网络层，并且每层后都接有残差连接和层归一化。
线性变换与Softmax层：最终的解码器输出经过线性变换映射到词汇表大小的维度，然后通过Softmax函数将其转换为概率分布，表示每个可能输出词的概率。选择概率最高的词作为模型的输出。

Transformer架构的核心特性包括：

多头注意力机制：自注意力机制允许模型直接关注输入序列中的任意位置，实现全局信息捕捉，特别适合处理长距离依赖关系，并支持并行计算，提高训练和推理速度。通过多个注意力头在不同子空间中学习多样化特征表示，增强对复杂模式的理解能力。
位置编码：添加位置编码以保留输入序列的顺序信息，确保模型理解语言等顺序敏感任务时的准确性。
前馈神经网络：每个注意力层后接一个包含线性变换和激活函数（如ReLU）的前馈神经网络，增强非线性表达能力。
残差连接与层归一化：每个子层后加入残差连接和层归一化技术，缓解深层网络的梯度消失问题，支持更深的网络结构。
无递归设计：采用无递归设计简化模型结构，减少参数数量，降低过拟合风险。

这些核心创新使得Transformer在处理长序列、理解复杂模式以及利用现代计算资源等方面显著优于传统的RNN及其变体。Transformer的出现为NLP领域带来了革命性的发展：

Transformer架构为BERT、GPT系列等大语言模型的诞生提供了核心技术支撑；
其强大的建模能力支持长文本理解、上下文建模、机器翻译、文本生成等多样化、高复杂度的NLP任务；
极大增强了模型的表达能力和泛化能力，显著提高了语言理解和生成的准确性与流畅性；
基于Transformer架构的大语言模型开创并推广了“预训练 + 微调”的范式，推动NLP进入以大规模预训练模型为核心的新时代，实现了从任务定制模型向通用语言模型的转变。

Transformer 的引入不仅加速了NLP领域的技术革新，也标志着自然语言处理正式迈入大模型、高性能的新阶段。

Transformer 从语言模型到视觉领域

随着Transformer在自然语言处理（NLP）领域的广泛应用和显著成功，其强大的建模能力也逐渐引起了视觉研究者的关注。

自注意力机制：能够建模图像中任意两个区域之间的长距离依赖关系，实现真正的全局感知；
动态特征提取：可根据输入内容动态调整注意力权重，提升对复杂场景的适应能力；
统一架构设计：与NLP任务共享模型结构，为多模态学习（如图文联合建模）提供了天然支持；
良好的可扩展性：支持在大规模数据和高分辨率图像上进行训练，具备良好的模型规模化能力。

于是研究者们开始探索将 Transformer架构强大的全局建模能力引入计算机视觉领域，从而催生了 Vision Transformer（ViT）、Swin Transformer 等一系列视觉Transformer模型。

2.2 ViT：将Transformer用于图像识别

Vision Transformer（ViT）是由谷歌在2020年提出的一种创新性视觉Transformer模型，旨在将Transformer架构的优势引入计算机视觉领域。

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

核心思想：将图像转化为序列，引入全局注意力

ViT工作过程的关键总结如下：

图像分块：ViT首先将输入图像划分为多个小块（patch），例如每个为16×16像素的小区域。
展平与向量化：接着，每个patch被展平为一个向量，以便于后续处理。
位置编码：为了保留原始图像中的空间信息，在这些向量中添加了位置编码。
全局自注意力计算：然后，这些带有位置信息的向量作为输入送入标准的Transformer编码器中，通过全局自注意力机制进行处理，从而捕捉整个图像中的长距离依赖关系。
分类输出：最终，使用最后一个向量来进行图像分类或其他任务。

ViT 的核心创新在于将传统的图像数据转换为适合 Transformer 架构处理的形式，从而利用Transformer 架构的强大功能，特别是其全局注意力机制、统一的架构设计以及出色的可扩展性。

效果和影响

ViT 在多个方面展示了其独特的性能优势：

全局信息捕捉：ViT通过自注意力机制能够有效地捕捉图像中的长距离依赖关系，这使得它在处理需要理解整个场景的任务（如图像分类、目标检测等）时表现出色。
大规模数据上的优越性：研究表明，当使用足够的数据进行训练时（通常指数百万甚至数十亿张图像），ViT可以达到或超过最先进的CNN模型的性能。特别是在大规模数据集上，ViT能学习到更加丰富和通用的特征表示。

同时，ViT 也存在一些挑战与局限：

对小数据集的适应性较差：对于标注数据较少的任务，ViT的表现可能不如传统的卷积神经网络(CNN)，因为它依赖于大量数据来发挥其潜在能力。
计算资源需求高：ViT的计算复杂度较高，尤其是在处理高分辨率图像时，因为它的自注意力机制的时间复杂度为O(n²)，这导致了较高的计算成本。这意味着在资源受限的环境中部署ViT可能会遇到挑战。
缺乏局部归纳偏置：相较于CNN，ViT没有内置的局部感知野，这可能影响它在一些需要精细局部特征提取的任务上的表现。不过，随着研究的深入，后续的改进版本也解决了这个问题，如Swin Transformer。

综上所述，虽然ViT在某些方面面临挑战，但在大规模数据集和复杂的视觉理解任务中，ViT展示了强大的性能和巨大的潜力，为计算机视觉领域带来了新的可能性。

从此，ViT开启了计算机视觉领域利用Transformer潜力的新篇章。

2.3 Swin Transformer：融合局部与全局建模的高效视觉架构

Swin Transformer由微软在2021年提出，是对Vision Transformer (ViT) 的一次重要改进，它巧妙地结合了卷积神经网络(CNN)的局部感知特性和Transformer架构的全局信息捕捉能力。通过引入一系列创新设计，Swin Transformer不仅解决了ViT的一些局限性，还在多个计算机视觉任务中展现了卓越的性能。

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

创新点：局部窗口 + 移位机制

Swin Transformer在 ViT 的基础上进行了一系列创新性的改进，旨在更好地融合局部与全局信息处理的优势。

分层特征表示：Swin Transformer能够提取多尺度的特征表示。这种层次化的特征提取方式有助于模型更好地理解图像中的不同细节和结构，从而提升对复杂场景的理解能力。
- ViT仅通过固定大小的patch进行处理相比，无法有效处理多尺度特征的问题。
- 而Swin Transformer借鉴了CNN中的多层卷积+池化操作，通过构建一个多阶段架构来逐步缩小特征图尺寸并增加感受野，实现了从细粒度到粗粒度的信息捕捉。
- 这种方法使得模型可以更灵活地适应不同的视觉任务需求。
局部窗口机制：为了克服ViT全局自注意力计算带来的高计算成本问题，Swin Transformer采用了一种局部窗口机制，在每个局部窗口内独立计算自注意力。
- ViT对整个图像的所有patch执行全局自注意力计算，导致计算复杂度为O(n²)，
- Swin Transformer将图像划分为多个不重叠的局部窗口（每个窗口包含多个patch），只在窗口内部计算自注意力，显著降低了计算量。
- 与文本序列不同，图像中的信息往往集中在特定的局部区域内，例如边缘、纹理和物体的部分等，具有物理世界的局部性特点。局部窗口机制很好地利用了这一特性，不仅保持了计算效率，还有效地捕捉了局部特征。
移位窗口机制：局部窗口机制有效降低了计算复杂度，但它可能导致信息局限于各个窗口内部，缺乏跨窗口的信息交流。为此，Swin Transformer引入了移位窗口机制，通过在连续层之间滑动窗口实现跨窗口的信息交互。
- 通过交替使用规则排列和移位排列的窗口配置，使得一个窗口内的部分patch可以在下一层进入相邻窗口，并参与到该窗口的自注意力计算，这样就实现了跨窗口的信息传递。
- 这一设计使得模型既能享受局部窗口带来的计算效率优势，又能避免因信息隔离造成的性能下降。
相对位置编码：不同于传统的绝对位置编码，Swin Transformer采用了相对位置编码方法。
- 这种方法考虑了元素之间的相对位置关系而非绝对位置，从而能更精确地表示空间信息。
- 相对位置编码增强了模型对空间结构的理解能力，还提高了模型在不同尺度和布局下的泛化能力，使其更适合复杂的视觉识别任务。

这些创新使Swin Transformer不仅能继承Transformer的强大全局建模能力，同时也能像CNN一样有效地处理局部特征，成为计算机视觉领域的重要进展。

效果和影响

ViT首次将Transformer成功引入计算机视觉领域，但由于其全局自注意力机制带来的高计算复杂度以及对局部特征建模能力的不足，在多个标准数据集上的表现并未显著超越CNN。

而Swin Transformer通过融合Transformer的全局建模能力和CNN的局部感知特性，有效解决了这些问题，从而在性能和效率上都取得了突破性进展：

优异的任务表现：在ImageNet图像分类、COCO目标检测和ADE20K语义分割等任务中均达到当时SOTA（State-of-the-Art）水平，展现出强大的建模能力。其创新的设计使得模型不仅能有效地捕捉长距离依赖关系，同时也能细致地处理局部特征，提升了整体性能。
高效的计算效率：得益于局部窗口和移位窗口机制，Swin Transformer相比ViT大幅提高了计算效率，尤其适合处理高分辨率图像。这使得它在资源有限的环境中也能够保持高性能运行。

鉴于其在多项任务上的优越表现和高效的计算特性，Swin Transformer成功将Transformer引入主流视觉任务。它的成功不仅推动了视觉Transformer的发展，也为未来的研究提供了新的方向和灵感。

三、多模态模型的崛起：从CLIP到ViLT

3.1 CLIP：对比学习实现图文对齐

CLIP（Contrastive Language-Image Pre-training）是由OpenAI于2021年提出的一种多模态预训练模型，其核心目标是将图像和文本映射到统一的语义空间中，从而实现跨模态的理解与匹配。CLIP的提出为视觉与语言的联合建模提供了新的思路，并在零样本迁移（zero-shot transfer）方面展现出巨大潜力。

Learning Transferable Visual Models From Natural Language Supervision

核心思想：在统一空间中实现图文对齐

CLIP通过对比学习将图像和文本映射到同一语义空间，在推理时利用文本提示与输入图像的相似度匹配实现零样本分类，无需针对新类别进行微调。

预训练阶段：

基于大量图文对进行对比学习：利用互联网上的海量图文配对数据（如网页标题、社交媒体图片描述等）进行预训练，无需人工标注的标签。
双编码器结构：分别使用Transformer作为文本编码器、ViT作为图像编码器，独立处理各自模态的信息。
联合嵌入空间对齐：两个编码器将图像和文本分别映射到一个共享的向量空间中，使得语义相似的图文对在该空间中距离更近。

推理阶段：

实现零样本图像分类（Zero-shot Classification）：CLIP可以通过将类别名称转化为文本提示（prompt），与输入图像进行相似度比较，这样无需进行微调（fine-tuning）即可识别训练过程中未见过的类别，极大提升了模型的泛化与适应能力。

训练机制：通过对比学习优化图文匹配，实现跨模态对齐

CLIP 的核心训练机制基于对比学习（contrastive learning），旨在将语义相关的图像和文本在共享嵌入空间中拉近，而将不相关的内容推远。具体过程如下：

构建图文相似度矩阵：在自注意力机制计算中，CLIP计算每张图像与所有文本描述之间的相似度，形成一个 N×N 的相似度矩阵（N 为批次大小），其中每一行表示一张图像与所有文本的匹配程度，每一列表示一段文本与所有图像的匹配程度。
优化目标：拉近正样本，推远负样本。通过对比学习策略，最大化真实图文对（即矩阵对角线元素）的相似度，同时最小化非匹配图文对的相似度。这使得模型能够有效学习到跨模态的语义对齐关系。
端到端联合优化：图像编码器（ViT）和文本编码器（Transformer）在训练过程中联合优化，确保两个模态的表示在共享空间中保持一致的语义结构。

这种方式不仅提升了模型对图文语义关系的理解能力，也为后续的零样本迁移（zero-shot transfer）奠定了坚实基础。

效果和影响

CLIP 自推出以来，在多个方面展示了其卓越的性能：

强大的零样本迁移能力：CLIP能够在没有目标类别标注数据的情况下，通过自然语言提示（prompt）实现对新类别的识别，打破了传统CV模型对训练类别和微调流程的依赖。
跨模态理解与检索能力优异：在图文检索任务中，CLIP能够准确匹配语义相关的图像与文本，显著提升了多模态任务的性能表现。
泛化能力强：由于训练数据覆盖广泛、语言引导分类方式灵活，CLIP在分布外（out-of-distribution）任务和复杂场景中表现出色，具备良好的鲁棒性。

CLIP开创性地将对比学习应用于大规模图文预训练，显著提升了跨模态理解和零样本迁移能力。其基于海量无标注数据进行自监督学习的思路，开启了多模态学习新范式，成为多模态领域具有里程碑意义的代表作。

3.2 ViLT：极简主义的多模态模型

ViLT（Vision-and-Language Transformer）是2021年提出的一种轻量级、端到端的多模态模型，其核心设计思想是“极简主义”，即通过简化视觉处理流程，实现更高效、更统一的图文建模。

ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

设计思路：极简主义

ViLT的核心设计理念是“极简主义”，通过简化视觉处理流程、采用统一的Transformer架构，实现高效、轻量、端到端的多模态建模。

视觉处理“去复杂化” ：以往的多模态模型（如 CLIP）通常采用复杂的视觉编码器（如ResNet或ViT）来提取图像特征，然后再与文本进行融合。而ViLT将图像划分为多个patch后，直接通过一个线性投影将每个patch映射为向量，省去了传统视觉编码中常见的复杂特征提取过程。
统一架构设计：图文共享相同的Transformer结构。图像和文本都被转化为向量序列，拼接后输入同一个Transformer模型中进行融合与建模。
强调端到端训练和跨模态融合效率：所有模块（包括图像处理、文本处理、跨模态融合）都可微分，支持完整的端到端训练。简化后的结构使得跨模态交互更直接，减少了信息传递中的损失和延迟。

效果和影响

ViLT采用了极简的设计理念，简化了图像处理流程，并且在架构上尽可能保持简洁，但依然在多个多模态任务中展示了良好的效果。

高效的跨模态理解能力：即使没有复杂的视觉编码器，ViLT仍然能够在图文问答（VQA）、图像描述生成（Image Captioning）等任务中取得良好的性能。这表明其简单的线性投影结合统一Transformer的架构设计能够有效地捕捉和融合图文信息。
计算效率显著提升：由于省去了传统的卷积神经网络（CNN）或Vision Transformer（ViT）作为视觉编码器，ViLT的计算开销大幅降低。具体来说，ViLT在图像处理阶段的计算复杂度远低于其他模型，使得它可以在资源受限的环境中更高效地运行。
支持长序列输入：得益于轻量级的设计，ViLT可以处理较长的图文序列而不显著增加计算负担，这对于需要处理复杂场景或多对象描述的任务尤为重要。

ViLT为多模态模型提供了一种轻量化、高效、统一的解决方案，它的成功证明了简化视觉处理流程并采用统一Transformer架构的有效性，为后续多模态模型的设计提供了新的思路。例如，GPT-4o等模型也借鉴了类似的极简设计理念，进一步推动了多模态模型向更高效、更通用的方向发展。

总结

Transformer架构在视觉和多模态领域的成功，充分体现了其强大的适应性与建模能力。从自然语言处理到计算机视觉，再到跨模态理解，Transformer展现出对不同数据类型和任务需求的高度兼容性，成为连接多种模态的统一桥梁。

从多模态模型的发展过程中可以看出，视觉和自然语言领域的创新思路在不断融合、相互启发。无论是视觉模型中引入的自注意力机制，还是语言模型中借鉴的层次化结构，这些跨模态的技术迁移持续推动着模型能力的边界拓展。将图像编码器与文本解码器结合（如CLIP、ViLT），或将CNN与Transformer融合（如Swin Transformer），这些看似简单的架构组合创新，带来了从感知到语义理解的重要跃迁，也加快了AI迈向通用智能的步伐。

如今，Transformer已经成为处理多种模态数据的核心架构，从文本、图像到视频，再到融合图文问答等多种信息源。它推动了大型语言模型的发展，并成为多模态模型的基础框架。Transformer的成功证明了统一架构的力量，也为未来AI技术的发展指明了方向。