字节跳动开源HUVR:一个视觉模型同时搞定识别与生成,96倍压缩令牌性能不减!

75 阅读7分钟

统一视觉表征的“次元壁”被打破了,这项研究让AI既能看懂世界又能创造世界。

近日,字节跳动旗下研究团队发布了一项颠覆性研究,提出了名为 “用于统一视觉表征的超网络”(Hyper-networks for Unified Visual Representation, HUVR) 的创新模型。这项研究不仅成功打破了计算机视觉领域中识别与生成任务长期存在的壁垒,还意外地创造出了令人惊艳的 “微型令牌”(Tiny Tokens, TinToks)技术,实现了96倍维度压缩下依然保持卓越性能的奇迹。

图片1.png

论文、已在arXiv上公开发布,配套的完整代码也已开源,为整个计算机视觉社区带来了全新的思路和工具。

论文地址: arxiv.org/abs/2601.14…****

代码仓库: github.com/tiktok/huvr (已开源)

图片2.png

都知道,计算机视觉领域长期存在两大技术路线:

  • 识别派,以ResNet、ViT、DINO、CLIP等为代表,通过对比学习等方式学习图像的高级语义特征。这类模型擅长图像分类、目标检测、语义分割等识别任务,是自动驾驶、安防监控等应用的核心技术。
  • 生成派,包括VAE、GAN和最近的扩散模型,专注于学习如何重建或生成逼真的图像。这些模型构成了AIGC浪潮的技术基础,驱动着AI绘画、内容生成等应用的飞速发展。

这两条路线虽然都在迅速发展,却如同两条平行线,它们的模型架构、训练目标和学习到的表征大相径庭。识别模型学到的嵌入虽然富含语义信息,但通常丢失了重建图像所需的精细纹理细节;而生成模型的隐空间虽善于捕捉像素分布,却未必适合直接用于下游识别任务。

如何打破这道“次元壁”,训练一个能“左右逢源”的统一视觉编码器?这正是HUVR研究的核心动机。

HUVR架构:超网络与隐式神经表示的完美融合

HUVR采用了一种极为巧妙的架构设计,它将隐式神经表示(INR)的超网络架构作为统一识别与生成任务的桥梁。

图片3.png

整个系统的工作流程可以概括为以下几个步骤:

  • 图像编码阶段,输入图像首先经过标准的Vision Transformer编码器,被转换成一系列图像块令牌。
  • 超网络预测INR权重,这些令牌随后被送入由多层感知机构成的超网络。这个超网络的核心任务是为每个图像块预测一套专属的INR网络权重。
  • INR重建图像,每个被预测出的INR都是一个微型网络,它接收该图像块内的像素坐标(x, y)作为输入,输出对应的RGB颜色值。通过这种方式,HUVR能够从坐标级别重建出完整的图像,这迫使模型编码器必须学习到极其精细的像素级信息。
  • 微型令牌的创新设计,HUVR的编码器拥有“特异功能”——不仅能输出标准维度的令牌(如ViT-B的768维),还能并行输出一个极低维度的版本,即“微型令牌”。这些TinToks同样参与后续的超网络预测过程,使得它们在极度压缩的同时,也必须承载足够重建图像的信息。
  • 知识蒸馏的加持,为了让模型不仅懂像素,更懂语义,研究团队引入了知识蒸馏技术。HUVR会跟随一个强大的预训练“教师”模型(如DINOv3)学习。通过蒸馏损失函数,HUVR编码器和解码器的输出特征会模仿教师模型的对应特征,从而获得高级语义理解能力。

这种设计使HUVR同时学习像素级的重建任务和语义级的识别任务,最终得到一个同时擅长识别和生成的强大视觉表征。

图片4.png

核心突破:微型令牌的惊人表现

TinToks的表现是这项研究最引人注目的亮点之一。在传统认知中,将特征维度压缩几十上百倍,性能必然会断崖式下跌,但HUVR彻底改变了这一认知。

图片5.png

以ViT-B模型为例的实验数据显示:

当令牌维度被压缩到仅8维(96倍压缩率) ,HUVR的TinToks在ImageNet-1k上的分类准确率达到了64.1%。相比之下,将强大的DINOv3特征用PCA暴力降到8维,准确率仅有16.1%。

当维度放宽到32维,HUVR的准确率飙升至79.4%,这已经接近甚至超过了很多早期轻量化模型的完整性能。

更令人印象深刻的是,不仅分类性能强劲,重建质量(以PSNR衡量)也远超基线方法,证明TinToks真正做到了“鱼与熊掌兼得”——在极致的压缩下仍保持了丰富的信息含量。

综合性能:在多项任务中达到SOTA水平

除了压缩空间中的惊人表现,HUVR在标准维度下的性能也足以与业界顶尖模型媲美:

在ImageNet-1k分类任务上,ViT-B尺寸的HUVR取得了85.0%的Top-1准确率,略高于DINOv3的84.6%,与SigLIP 2等SOTA模型持平。

图片6.png

在更考验模型对图像理解能力的密集预测任务上,HUVR同样表现出色。在ADE20K语义分割任务上,HUVR以52.0 mIoU的成绩击败了DINOv3的50.8 mIoU。在NYUv2深度估计任务上,也取得了更低的误差。

图片7.png

这些结果充分证明了HUVR表征的全面性和强大,它不仅在单一任务上表现出色,而且能够适应多种不同类型的视觉任务。

生成能力探索:统一表征的潜力初现

HUVR的INR超网络设计本身也是一大创新。实验表明,其重建图像的保真度(PSNR)远超之前的INR超网络方法

研究团队还探索了将HUVR的嵌入用于扩散模型(DiT)进行图像生成。虽然初步结果还无法与顶级的生成模型媲美,但已经成功证明了HUVR的嵌入具备驱动生成模型的潜力,为未来的研究开辟了新的可能性。

图片8.png

图片9.png

这预示着统一视觉表征的巨大潜力:一个模型既能理解图像内容,又能生成新图像,朝着更通用的人工智能迈进了一步。

总结与展望

HUVR为实现“大一统”的通用视觉表征提供了一个优雅而有效的方案。它巧妙利用INR超网络作为桥梁,将像素级的重建任务和语义级的识别任务无缝融合在同一个模型中。

这项研究的突破性意义体现在多个方面:

它挑战了识别与生成模型必须分离的传统观念;它创造出的微型令牌技术为极轻量级视觉应用开辟了新可能;它的统一表征框架为多模态理解和生成任务提供了新的基础。

随着HUVR的开源和进一步研究,我们有理由期待,更多基于统一视觉表征的创新应用将涌现出来,推动整个AI领域向着更通用、更高效的方向发展。

在AI技术快速演进的今天,HUVR不仅是一项技术突破,更是对未来视觉AI发展方向的一次重要探索。它告诉我们,识别与生成并非不可调和的矛盾,而是可以统一在一个更优雅的框架下,共同构建更智能的视觉系统。