为什么要从零学习Vit对于一个程序员来说，从零学习Vision Transformer（Vit）还是面临着很多的挑战。因

对于一个程序员来说，从零学习Vision Transformer（Vit）还是面临着很多的挑战。因此将我的学习过程及心得写下，希望能够对其他人也有所帮助。

Vit背景介绍

Vision Transformer（ViT）是由Google Brain团队于2020年提出的，其主要贡献者是Alexey Dosovitskiy和Nikolay Kudashev。ViT的提出是为了应对传统卷积神经网络（CNN）在处理大规模图像时出现的一些限制。相较于CNN，ViT采用了Transformer架构，即基于自注意力机制的序列建模方法，来处理图像数据。ViT利用自注意力机制在全局范围内对图像进行建模，使其能够捕捉到全局的信息，从而在大规模视觉任务中表现出色。

ViT的提出受到了Transformer模型（2017年）在自然语言处理领域的成功启发，因为Transformer模型在自然语言处理中已经证明了它能够在序列建模中表现优异。ViT将Transformer应用到了视觉领域，并对其进行了相应的修改和优化，使其能够适应处理图像数据的特点。

ViT的核心是Transformer中的自注意力机制，其本质上是一种基于查询、键、值的映射关系，将输入序列中的每个元素映射到一个新的表示中。在ViT中，自注意力机制被应用于将输入图像中的所有像素点映射到一个新的特征表示中，从而实现全局建模。通过在多个Transformer模块之间传递特征表示，ViT能够捕捉到图像中的全局信息，并在大规模视觉任务中取得优异的性能。

总的来说，ViT的提出是为了解决传统卷积神经网络在处理大规模图像时的限制，其背后的Transformer架构和自注意力机制使其能够在图像处理中实现全局建模，从而在大规模视觉任务中表现出色。

为什么要学习Vision Transformer（ViT）

ChatGPT刚刚兴起，百AI大战刚刚开始，学习Vision Transformer也是不算太晚。
无人驾驶可能在用
该技术未来使用场景可能会很大
本人对该领域感兴趣，有些工作相关的场景可以尝试

在调研Vit过程当中，查看各种教程中，也注意到有up主提到特斯拉也在使用该技术来做无人驾驶。所以该技术有可能在未来会有更大发光发热的空间。同时Vit也可以作为视频识别类大模型的基石。