多模态 - VIT模型

2025-12-02 62 阅读3分钟

一、它是什么

VIT（Vision Transformer）是一种将Transformer架构直接应用于图像处理的深度学习模型。它通过将图像分割成固定大小的块（如16×16像素），将这些块转化为序列形式的“视觉词”，再利用Transformer的自注意力机制处理这些序列，从而实现图像理解。简单来说，ViT是用处理文字的Transformer方法来处理图像的模型。

二、它可以用来干什么

图像识别： 识别图片中的物体、场景或动作。
目标检测： 定位图片中所有物体的位置（如YOLOv8 + ViT）。
图像分割： 划分图像中每个物体的精确轮廓（如MaskDINO + ViT）。
多模态任务： 与语言模型结合，实现“看图说话”（如CLIP模型）。

三、它是怎么做到的

ViT的工作流程分为以下几个步骤：

图像分块：
- 将输入图像（如224×224像素）切割成固定大小的块（如16×16像素），得到196个小块。
- 每个小块被展平为向量，并通过线性嵌入层转换为高维特征向量。
添加特殊标记：
- 在序列最前面插入一个可学习的[CLS] token（类似BERT中的分类标记），用于最终分类。
位置编码：
- 为每个图像块和[CLS] token添加位置编码（可学习的向量），保留图像的空间信息。
Transformer 编码器 处理：
- 使用多头自注意力机制，计算所有图像块之间的关系（如猫的耳朵与尾巴的关联）。
- 通过前馈神经网络（FFN）增强特征表达，每层都包含残差连接和层归一化。
分类输出：
- 最终输出的[CLS] token通过全连接层（MLP）进行分类，得到图像的类别预测。

四、它的优点

全局建模能力： 自注意力机制能捕捉图像中远距离区域的依赖关系（如长距离遮挡关系）。
大规模数据下性能优越： 在大型数据集（如ImageNet-21k）上，ViT的分类准确率可超过传统CNN（如ResNet）。
统一架构优势： 与NLP共享Transformer架构，便于实现多模态任务（如图像+文本联合建模）。
可扩展性强： 通过增加编码器层数、注意力头数量或嵌入维度，可灵活调整模型规模。

五、它的缺点

数据 依赖性 高：在小数据集上表现不稳定，需大量数据（如百万级图像）预训练。
计算成本高： 自注意力机制的复杂度与图像块数量平方相关，高分辨率图像处理效率较低。
局部细节丢失风险： 分块处理可能导致细粒度纹理信息（如纹理、边缘）的丢失。
训练资源需求大： 相比CNN，训练时间通常更长。

六、总结

ViT通过"图像分块→序列化→Transformer处理"的方式，打破了传统CNN在计算机视觉中的主导地位。它在大数据场景下表现出色，但需要权衡数据量与计算成本。未来随着模型小型化和专用芯片的发展，ViT的应用门槛将进一步降低。