CVPR 2024计算机视觉技术研究指南本文综述了某机构在CVPR 2024上发表的计算机视觉论文，涵盖视觉语言模型、3

CVPR 2024计算机视觉论文快速指南

与AI其他领域一样，生成式模型和基础模型（如视觉语言模型）是当前的热门话题。

会议：CVPR 2024

过去几年，基础模型和生成式AI模型（特别是大语言模型）已成为AI研究的主要课题。即使在计算机视觉领域也是如此，该领域越来越关注将大语言模型与图像编码器结合的视觉语言模型。这种转变可以从某机构今年计算机视觉与模式识别会议录用论文的主题中看出。多数论文涉及视觉语言模型，而其他一些论文涉及相关主题，如视觉问答、幻觉缓解和检索增强生成。同时，经典的计算机视觉主题如3D重建、目标跟踪和姿态估计仍然有很好的代表性。

3D重建

通过双布局估计消除360°房间布局中的歧义 Yu-Ju Tsai, Jin-Cheng Jhang, Jingjing Zheng, Wei Wang, Albert Chen, Min Sun, Cheng-Hao Kuo, Ming-Hsuan Yang

ViewFusion：通过插值去噪实现多视图一致性 Xianghui Yang, Yan Zuo, Sameera Ramasinghe, Loris Bazzani, Gil Avraham, Anton van den Hengel

标准扩散模型生成的对象视图通常很逼真，但相邻视图可能缺乏对齐（左图）。ViewFusion结合了一种自回归过程，有助于跨视图的一致性（右图）。

算法信息论

通过复杂度约束的描述性自动编码实现概念相似性的可解释度量 Alessandro Achille, Greg Ver Steeg, Tian Yu Liu, Matthew Trager, Carson Klingenberg, Stefano Soatto

地理空间分析

连接遥感器与多传感器地理空间基础模型 Boran Han, Shuai Zhang, Xingjian Shi, Markus Reichstein

幻觉缓解

通过视觉信息 grounding 进行多模态幻觉控制 Alessandro Favero, Luca Zancato, Matthew Trager, Siddharth Choudhary, Pramuditha Perera, Alessandro Achille, Ashwin Swaminathan, Stefano Soatto

THRONE：面向大视觉语言模型自由形式生成的基于对象的幻觉基准 Prannay Kaul, Zhizhong Li, Hao Yang, Yonatan Dukler, Ashwin Swaminathan, C. J. Taylor, Stefano Soatto

度量学习

开放世界识别中传导性阈值校准的学习 Qin Zhang, Dongsheng An, Tianjun Xiao, Tong He, Qingming Tang, Ying Nian Wu, Joe Tighe, Yifan Xing, Stefano Soatto

模型鲁棒性

GDA：用于鲁棒测试时自适应的广义扩散 Yun Yun Tsai, Fu-Chen Chen, Albert Chen, Junfeng Yang, Che-Chun Su, Min Sun, Cheng-Hao Kuo

以对象为中心的学习

自适应槽注意力：具有动态槽数量的对象发现 Ke Fan, Zechen Bai, Tianjun Xiao, Tong He, Max Horn, Yanwei Fu, Francesco Locatello, Zheng Zhang

目标跟踪

基于路径一致性的自监督多目标跟踪 Zijia Lu, Bing Shuai, Yanbei Chen, Zhenlin Xu, Davide Modolo

姿态估计

MRC-Net：基于多尺度残差相关的6自由度姿态估计 Yuelong Li, Yafei Mao, Raja Bala, Sunil Hadap

左图为相机图像，右图将彩色3D模型（带有估计的六自由度姿态）叠加到原始图像上。

负责任AI

FairRAG：通过公平检索增强实现公平的人像生成 Robik Shrestha, Yang Zou, James Chen, Zhiheng Li, Yusheng Xie, Tiffany Deng

检索增强生成

CPR：用于版权保护的检索增强生成 Aditya Golatkar, Alessandro Achille, Luca Zancato, Yu-Xiang Wang, Ashwin Swaminathan, Stefano Soatto

安全性

面向多样化计算平台、具有增强迁移性的真实世界对抗攻击的锐度感知优化 Muchao Ye, Xiang Xu, Qin Zhang, Jon Wu

视频语言模型

VidLA：大规模视频语言对齐 Mamshad Nayeem Rizve, Fan Fei, Jayakrishnan Unnikrishnan, Son Tran, Benjamin Yao, Belinda Zeng, Mubarak Shah, Trishul Chilimbi

视觉语言模型

接受模态差距：双曲空间中的探索 Sameera Ramasinghe, Violetta Shevchenko, Gil Avraham, Ajanthan Thalaiyasingam

提出了一种基于角度的对比损失，允许将图像放置在从文本嵌入出发的轴上的任意位置，从而实现图像之间的层次关系。

通过丰富监督增强视觉语言预训练 Yuan Gao, Kunyu Shi, Pengkai Zhu, Edouard Belval, Oren Nuriel, Srikar Appalaraju, Shabnam Ghadar, Vijay Mahadevan, Zhuowen Tu, Stefano Soatto

GROUNDHOG：将大语言模型接地到整体分割 Yichi Zhang, Martin Ma, Xiaofeng Gao, Suhaila Shakiah, Qiaozi (QZ) Gao, Joyce Chai

基于合成标题的双曲学习用于开放世界检测 Fanjie Kong, Yanbei Chen, Jiarui Cai, Davide Modolo

非自回归序列到序列视觉语言模型 Kunyu Shi, Qi Dong, Luis Goncalves, Zhuowen Tu, Stefano Soatto

基于扩散的文本到图像生成的可扩展性研究 Hao Li, Yang Zou, Ying Wang, Orchid Majumder, Yusheng Xie, R. Manmatha, Ashwin Swaminathan, Zhuowen Tu, Stefano Ermon, Stefano Soatto

UNet缩放对文本-图像对齐的影响。某机构研究人员沿两个维度变化UNet：通道数（左）和Transformer深度（右）。提示词为：(1)“树上的方形蓝色苹果和圆形黄色叶子”；(2)“五个磨砂玻璃瓶”；(3)“蓝色球体右侧的黄色盒子”；(4)“飞在月亮前的国际空间站”。

视觉问答

GRAM：多页面视觉问答的全局推理 Tsachi Blau, Sharon Fogel, Roi Ronen, Alona Golts, Roy Ganz, Elad Ben Avraham, Aviad Aberdam, Shahar Tsiper, Ron Litman

用于多模态推理的问题感知视觉Transformer Roy Ganz, Yair Kittenplon, Aviad Aberdam, Elad Ben Avraham, Oren Nuriel, Shai Mazor, Ron Litman

逐步合成：工具、模板和大语言模型作为基于推理的图表视觉问答的数据生成器 Zhuowan Li, Bhavan Jasani, Peng Tang, Shabnam Ghadar

研究领域： 计算机视觉

标签： 视觉语言模型、大语言模型、生成式AI、检索增强生成、幻觉、CVPRFINISHED