关于DETR的故事 | 豆包MarsCode AI 刷题DETR (end-to-end object detectio

前几天连续更新了几篇关于Transformer与注意力机制的介绍，使得我们对Transformer与注意力机制有了大致的了解，今天想继续讨论一些Transformer相对前沿应用一些的东西——DETR，将Transformer用于目标检测的故事。

DETR (end-to-end object detection with transformers)

我们都知道Transformer是个好东西，它通过注意力机制显著提升了自然语言处理和计算机视觉等领域的性能。注意力机制使得模型能够在处理输入时关注到不同部分的重要性，从而在捕捉上下文信息和长距离依赖关系方面表现得尤为出色。

我们知道对于目标检测任务，我们往往需要实现对多种多个目标的检测，是时候对这一模型架构进行进一步的改进了。

由此，研究人员提出了DETR结构：

在DETR中，卷积骨干网络负责提取输入图像的特征，并通过位置编码将这些特征进行增强。这些经过处理的特征被用作输入，传递给Transformer的编码器和解码器。解码器则批量输出多个预测的物体集合。最终，这些预测结果经过一个三层的前馈神经网络（FFN），生成目标检测框和相应的类别标签。

在整个过程中，编码器和解码器均利用了注意力机制。可以理解为，编码器的输入是基于像素级别的object query和key，而解码器则处理N个可学习的key（N表示可学习的类别数量），这些key来自编码器的特征图。与此同时，query则是object query，用于指导解码器生成最终的检测结果。

为了更直观地理解模型结构，我们可以参考本文附录中的网络结构图，该图清晰地展示了DETR的整体架构。

DETR模型具有多项显著优点：

DETR的提出标志着目标检测领域的一次重要进步，利用Transformer的优势，进一步推动了深度学习在计算机视觉中的应用。

本篇为自己写的论文阅读笔记留档并修饰过的结果，也许有很多不完善之处，欢迎讨论斧正。