[分享][每日更新][2024.02.11][CV_arxiv_papers]

2024-02-13 142 阅读5分钟

[UPDATED!] 2024-02-11 (Publish Time)

生成模型

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-02-11	Towards Explainable, Safe Autonomous Driving with Language Embeddings for Novelty Identification and Active Learning: Framework and Experimental Analysis with Real-World Data Sets	通过用于新颖性识别和主动学习的语言嵌入实现可解释的安全自动驾驶：使用真实世界数据集的框架和实验分析	Ross Greer, Mohan Trivedi	arxiv.org/pdf/2402.07…	null
2024-02-11	3D Gaussian as a New Vision Era: A Survey	3D 高斯作为新视觉时代：一项调查	Ben Fei, Jingyi Xu, Rui Zhang, Qingyuan Zhou, Weidong Yang, Ying He	arxiv.org/pdf/2402.07…	null
2024-02-11	An attempt to generate new bridge types from latent space of denoising diffusion Implicit model	尝试从去噪扩散的潜在空间生成新的桥类型隐式模型	Hongjun Zhang	arxiv.org/pdf/2402.07…	link
2024-02-11	Self-Correcting Self-Consuming Loops for Generative Model Training	用于生成模型训练的自校正自消耗循环	Nate Gillman, Michael Freeman, Daksh Aggarwal, Chia-Hong Hsu, Calvin Luo, Yonglong Tian, Chen Sun	arxiv.org/pdf/2402.07…	null

多模态

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-02-11	Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy	通过利用分类数据集及其语义层次结构对视觉语言模型进行开放式 VQA 基准测试	Simon Ging, María A. Bravo, Thomas Brox	arxiv.org/pdf/2402.07…	link
2024-02-11	KVQ: Kaleidoscope Video Quality Assessment for Short-form Videos	KVQ：短视频的万花筒视频质量评估	Yiting Lu, Xin Li, Yajing Pei, Kun Yuan, Qizhi Xie, Yunpeng Qu, Ming Sun, Chao Zhou, Zhibo Chen	arxiv.org/pdf/2402.07…	null
2024-02-11	A Benchmark for Multi-modal Foundation Models on Low-level Vision: from Single Images to Pairs	低水平视觉多模态基础模型的基准：从单图像到成对图像	Zicheng Zhang, Haoning Wu, Erli Zhang, Guangtao Zhai, Weisi Lin	arxiv.org/pdf/2402.07…	link

Nerf

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-02-11	BioNeRF: Biologically Plausible Neural Radiance Fields for View Synthesis	BioNeRF：用于视图合成的生物学上合理的神经辐射场	Leandro A. Passos, Douglas Rodrigues, Danilo Jodas, Kelton A. P. Costa, João Paulo Papa	arxiv.org/pdf/2402.07…	null

3DGS

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-02-11	GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting	GALA3D：通过布局引导的生成高斯泼溅实现文本到 3D 复杂场景生成	Xiaoyu Zhou, Xingjian Ran, Yajiao Xiong, Jinlin He, Zhiwei Lin, Yongtao Wang, Deqing Sun, Ming-Hsuan Yang	arxiv.org/pdf/2402.07…	null

模型压缩/优化

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-02-11	Outlier-Aware Training for Low-Bit Quantization of Structural Re-Parameterized Networks	结构重参数化网络低位量化的异常值感知训练	Muqun Niu, Yuan Ren, Boyu Li, Chenchen Ding	arxiv.org/pdf/2402.07…	null
2024-02-11	Learning by Watching: A Review of Video-based Learning Approaches for Robot Manipulation	通过观看学习：基于视频的机器人操作学习方法综述	Chrisantus Eze, Christopher Crick	arxiv.org/pdf/2402.07…	null
2024-02-11	Two-Stage Multi-task Self-Supervised Learning for Medical Image Segmentation	医学图像分割的两阶段多任务自监督学习	Binyan Hu, A. K. Qin	arxiv.org/pdf/2402.07…	null

分类/检测/识别/分割/...

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-02-11	Deep Learning for Medical Image Segmentation with Imprecise Annotation	具有不精确注释的深度学习医学图像分割	Binyan Hu, A. K. Qin	arxiv.org/pdf/2402.07…	null
2024-02-11	The Bias of Harmful Label Associations in Vision-Language Models	视觉语言模型中有害标签关联的偏差	Caner Hazirbas, Alicia Sun, Yonathan Efroni, Mark Ibrahim	arxiv.org/pdf/2402.07…	null
2024-02-11	Trade-off Between Spatial and Angular Resolution in Facial Recognition	面部识别中空间分辨率和角度分辨率之间的权衡	Muhammad Zeshan Alam, Sousso kelowani, Mohamed Elsaeidy	arxiv.org/pdf/2402.07…	null
2024-02-11	Data Quality Aware Approaches for Addressing Model Drift of Semantic Segmentation Models	用于解决语义分割模型模型漂移的数据质量感知方法	Samiha Mirza, Vuong D. Nguyen, Pranav Mantini, Shishir K. Shah	arxiv.org/pdf/2402.07…	null
2024-02-11	Semi-Mamba-UNet: Pixel-Level Contrastive Cross-Supervised Visual Mamba-based UNet for Semi-Supervised Medical Image Segmentation	Semi-Mamba-UNet：用于半监督医学图像分割的像素级对比交叉监督视觉 Mamba UNet	Ziyang Wang, Chao Ma	arxiv.org/pdf/2402.07…	link
2024-02-11	A novel spatial-frequency domain network for zero-shot incremental learning	一种用于零样本增量学习的新型空间频域网络	Jie Ren, Yang Zhao, Weichuan Zhang, Changming Sun	arxiv.org/pdf/2402.07…	null
2024-02-11	Spatio-spectral classification of hyperspectral images for brain cancer detection during surgical operations	用于外科手术期间脑癌检测的高光谱图像的空间光谱分类	H. Fabelo, S. Ortega, D. Ravi, B. R. Kiran, C. Sosa, D. Bulters, G. M. Callico, H. Bulstrode, A. Szolna, J. F. Pineiro, et.al.	arxiv.org/pdf/2402.07…	null

Transformer

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-02-11	PIVOT-Net: Heterogeneous Point-Voxel-Tree-based Framework for Point Cloud Compression	PIVOT-Net：基于异构点体素树的点云压缩框架	Jiahao Pang, Kevin Bui, Dong Tian	arxiv.org/pdf/2402.07…	null
2024-02-11	GeoFormer: A Vision and Sequence Transformer-based Approach for Greenhouse Gas Monitoring	GeoFormer：基于视觉和序列变压器的温室气体监测方法	Madhav Khirwar, Ankur Narang	arxiv.org/pdf/2402.07…	null

3D/CG

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-02-11	LISR: Learning Linear 3D Implicit Surface Representation Using Compactly Supported Radial Basis Functions	LISR：使用紧支持的径向基函数学习线性 3D 隐式曲面表示	Atharva Pandey, Vishal Yadav, Rajendra Nagar, Santanu Chaudhury	arxiv.org/pdf/2402.07…	null

各类学习方式

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-02-11	INSITE: labelling medical images using submodular functions and semi-supervised data programming	INSITE：使用子模块函数和半监督数据编程来标记医学图像	Akshat Gautam, Anurag Shandilya, Akshit Srivastava, Venkatapathy Subramanian, Ganesh Ramakrishnan, Kshitij Jadhav	arxiv.org/pdf/2402.07…	null

其他

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-02-11	Supervised Reconstruction for Silhouette Tomography	轮廓断层扫描的监督重建	Evan Bell, Michael T. McCann, Marc Klasky	arxiv.org/pdf/2402.07…	null
2024-02-11	American Sign Language Video to Text Translation	美国手语视频到文本翻译	Parsheeta Roy, Ji-Eun Han, Srishti Chouhan, Bhaavanaa Thumu	arxiv.org/pdf/2402.07…	null
2024-02-11	A Highlight Removal Method for Capsule Endoscopy Images	胶囊内窥镜图像的高光去除方法	Shaojie Zhang, Yinghui Wang, Peixuan Liu, Jinlong Yang, Tao Yan, Liangyi Huang, Mingfeng Wang	arxiv.org/pdf/2402.07…	null