什么是DINOv3

227 阅读2分钟

DINOv3是Meta近期开源的最新视觉大模型。它基于自监督学习,在多个计算机视觉任务中实现了突破性表现。以下是具体介绍:

  • 模型架构:采用定制化的Vision Transformer,拥有70亿参数。嵌入维度从DINOv2的1536提升至4096,注意力头数从24增至32,前馈网络隐藏维度从4096扩展到8192,并采用旋转位置嵌入替代可学习嵌入,使模型能自适应不同分辨率输入。
  • 核心技术
    • Gram锚定技术:针对长时间训练中密集特征图退化的问题,DINOv3提出Gram锚定技术。通过强制学生模型的特征Gram矩阵与早期训练阶段的“教师模型”保持一致,计算两者差异作为损失,确保特征间的相似性结构稳定。
    • 恒定超参数调度:取消余弦调度,改用恒定超参数调度,解决了大规模训练中优化周期难以预估的问题。
  • 训练数据:训练数据扩大至17亿张图像,是前一代模型的12倍,大规模的数据让模型学习到更丰富的视觉特征。
  • 后处理优化策略
    • 高分辨率适配:通过混合分辨率训练,使模型在4096×4096等高分辨率输入下仍保持特征稳定性,在1024×1024分辨率下的语义分割性能可提升15%。
    • 知识蒸馏:将70亿参数模型的知识蒸馏到更小的变体中,形成包含ViT-S、ViT-B、ViT-L及ConvNeXt(T/S/B/L)的模型家族,方便在不同资源条件下应用。
    • 文本对齐:冻结视觉主干网络,训练文本编码器与视觉特征对齐,支持零样本任务,在COCO图像-文本检索任务中,图像到文本的Recall@1达到84.7%。
  • 性能表现:在图像分类、语义分割、单目深度估计等10大类,60多个子集测试中表现出色,超越了同类开、闭源模型。例如在ADE20k数据集的语义分割任务中,线性探针的mIoU达到了55.9,远超DINOv2的49.5以及SigLIP 2的42.7;在ImageNet1k数据集的图像分类任务中,线性探针准确率达到88.4%。
  • 应用领域:可应用于医疗保健、环境监测、自动驾驶汽车、航空航天等领域,如支持医学影像诊断、卫星影像的环境监测分析等。

DINOv3的开源为视觉模型领域带来新的活力和机遇,为开发者和研究人员提供了强大的视觉基础模型工具。其开源地址为huggingface.co/collections…