CVPR 2024计算机视觉技术前沿概览本文系统介绍了CVPR 2024会议上关于视觉语言模型、三维重建、幻觉缓解等计算

CVPR 2024技术论文概览

在人工智能的各个领域，生成模型和基础模型——如视觉语言模型——已成为热门话题。

研究重点转变

过去几年，基础模型和生成式AI模型——特别是大语言模型——已成为AI研究的主要课题。这一趋势在计算机视觉领域同样明显，研究重点日益集中在将大语言模型与图像编码器结合的视觉语言模型上。

这种转变体现在今年计算机视觉与模式识别会议（CVPR 2024）接受的论文主题中。多数论文涉及视觉语言模型，而其他一些论文则关注相关主题，如视觉问答、幻觉缓解和检索增强生成。然而，传统计算机视觉主题如三维重建、目标跟踪和姿态估计仍然得到充分体现。

三维重建

通过双布局估计消除360°房间布局的模糊性 作者：Yu-Ju Tsai, Jin-Cheng Jhang, Jingjing Zheng, Wei Wang, Albert Chen, Min Sun, Cheng-Hao Kuo, Ming-Hsuan Yang

ViewFusion：通过插值去噪实现多视图一致性 作者：Xianghui Yang, Yan Zuo, Sameera Ramasinghe, Loris Bazzani, Gil Avraham, Anton van den Hengel

标准扩散模型生成的对象视图通常很逼真，但相邻视图可能缺乏对齐（左图）。ViewFusion采用自回归过程，促进跨视图的一致性（右图）。

算法信息论

通过复杂度约束描述性自编码实现可解释的概念相似性度量 作者：Alessandro Achille, Greg Ver Steeg, Tian Yu Liu, Matthew Trager, Carson Klingenberg, Stefano Soatto

地理空间分析

通过多传感器地理空间基础模型连接遥感器 作者：Boran Han, Shuai Zhang, Xingjian Shi, Markus Reichstein

幻觉缓解

通过视觉信息 grounding 实现多模态幻觉控制 作者：Alessandro Favero, Luca Zancato, Matthew Trager, Siddharth Choudhary, Pramuditha Perera, Alessandro Achille, Ashwin Swaminathan, Stefano Soatto

THRONE：面向大型视觉语言模型自由生成的对象基础幻觉基准 作者：Prannay Kaul, Zhizhong Li, Hao Yang, Yonatan Dukler, Ashwin Swaminathan, C. J. Taylor, Stefano Soatto

度量学习

开放世界识别中的转导阈值校准学习 作者：Qin Zhang, Dongsheng An, Tianjun Xiao, Tong He, Qingming Tang, Ying Nian Wu, Joe Tighe, Yifan Xing, Stefano Soatto

模型鲁棒性

GDA：用于鲁棒测试时适应的广义扩散 作者：Yun Yun Tsai, Fu-Chen Chen, Albert Chen, Junfeng Yang, Che-Chun Su, Min Sun, Cheng-Hao Kuo

以对象为中心的学习

自适应槽注意力：动态槽数的对象发现 作者：Ke Fan, Zechen Bai, Tianjun Xiao, Tong He, Max Horn, Yanwei Fu, Francesco Locatello, Zheng Zhang

目标跟踪

具有路径一致性的自监督多目标跟踪 作者：Zijia Lu, Bing Shuai, Yanbei Chen, Zhenlin Xu, Davide Modolo

姿态估计

MRC-Net：基于多尺度残差相关的6自由度姿态估计 作者：Yuelong Li, Yafei Mao, Raja Bala, Sunil Hadap

图像对中，左图是相机图像，右图在原始图像上叠加了带有估计六自由度姿态的彩色3D对象模型。

负责任AI

FairRAG：通过公平检索增强实现公平人类生成 作者：Robik Shrestha, Yang Zou, James Chen, Zhiheng Li, Yusheng Xie, Tiffany Deng

检索增强生成

CPR：用于版权保护的检索增强生成 作者：Aditya Golatkar, Alessandro Achille, Luca Zancato, Yu-Xiang Wang, Ashwin Swaminathan, Stefano Soatto

安全

针对多样化计算平台真实对抗攻击的锐度感知优化与增强可转移性 作者：Muchao Ye, Xiang Xu, Qin Zhang, Jon Wu

视频语言模型

VidLA：大规模视频语言对齐 作者：Mamshad Nayeem Rizve, Fan Fei, Jayakrishnan Unnikrishnan, Son Tran, Benjamin Yao, Belinda Zeng, Mubarak Shah, Trishul Chilimbi

视觉语言模型

接受模态差距：双曲空间中的探索 作者：Sameera Ramasinghe, Violetta Shevchenko, Gil Avraham, Ajanthan Thalaiyasingam

"接受模态差距：双曲空间中的探索"提出了一种新的基于角度的对比损失，允许将图像放置在从文本嵌入发出的轴上的任何位置，从而在图像之间建立层次结构。

通过丰富监督增强视觉语言预训练 作者：Yuan Gao, Kunyu Shi, Pengkai Zhu, Edouard Belval, Oren Nuriel, Srikar Appalaraju, Shabnam Ghadar, Vijay Mahadevan, Zhuowen Tu, Stefano Soatto

GROUNDHOG：将大语言模型 grounding 到整体分割 作者：Yichi Zhang, Martin Ma, Xiaofeng Gao, Suhaila Shakiah, Qiaozi (QZ) Gao, Joyce Chai

使用合成标题进行双曲学习以实现开放世界检测 作者：Fanjie Kong, Yanbei Chen, Jiarui Cai, Davide Modolo

非自回归序列到序列视觉语言模型 作者：Kunyu Shi, Qi Dong, Luis Goncalves, Zhuowen Tu, Stefano Soatto

基于扩散的文本到图像生成的可扩展性 作者：Hao Li, Yang Zou, Ying Wang, Orchid Majumder, Yusheng Xie, R. Manmatha, Ashwin Swaminathan, Zhuowen Tu, Stefano Ermon, Stefano Soatto

UNet缩放对文本-图像对齐的影响。在"基于扩散的文本到图像生成的可扩展性"中，研究人员沿两个维度改变UNet：通道数（左）和变换器深度（右）。提示词为：

"方形蓝苹果在带有圆形黄叶的树上"
"五个磨砂玻璃瓶"
"蓝色球体右侧的黄色盒子"
"在国际空间站飞过月球前方"

视觉问答

GRAM：多页面VQA的全局推理 作者：Tsachi Blau, Sharon Fogel, Roi Ronen, Alona Golts, Roy Ganz, Elad Ben Avraham, Aviad Aberdam, Shahar Tsiper, Ron Litman

用于多模态推理的问题感知视觉变换器 作者：Roy Ganz, Yair Kittenplon, Aviad Aberdam, Elad Ben Avraham, Oren Nuriel, Shai Mazor, Ron Litman

逐步合成：工具、模板和LLM作为基于推理的图表VQA的数据生成器 作者：Zhuowan Li, Bhavan Jasani, Peng Tang, Shabnam Ghadar