[分享][每日更新][2024.03.09][CV_arxiv_papers]

2024-03-12 199 阅读8分钟

[UPDATED!] 2024-03-09 (Publish Time)

图像理解

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-03-09	Deep learning for multi-label classification of coral conditions in the Indo-Pacific via underwater photogrammetry	通过水下摄影测量对印度太平洋珊瑚状况进行深度学习多标签分类	Xinlei Shao, Hongruixuan Chen, Kirsty Magson, Jiaqi Wang, Jian Song, Jundong Chen, Jun Sasaki	arxiv.org/pdf/2403.05…	null
2024-03-09	DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and Depth from Monocular Videos	DO3D：来自单目视频的分解对象感知 3D 运动和深度的自监督学习	Xiuzhe Wu, Xiaoyang Lyu, Qihao Huang, Yong Liu, Yang Wu, Ying Shan, Xiaojuan Qi	arxiv.org/pdf/2403.05…	null

LLM

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-03-09	LTGC: Long-tail Recognition via Leveraging LLMs-driven Generated Content	LTGC：通过利用法学硕士驱动的生成内容进行长尾识别	Qihao Zhao, Yalun Dai, Hao Li, Wei Hu, Fan Zhang, Jun Liu	arxiv.org/pdf/2403.05…	null

Transformer

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-03-09	CarbonNet: How Computer Vision Plays a Role in Climate Change? Application: Learning Geomechanics from Subsurface Geometry of CCS to Mitigate Global Warming	CarbonNet：计算机视觉如何在气候变化中发挥作用？应用：从 CCS 的地下几何形状学习地质力学以缓解全球变暖	Wei Chen, Yunan Li, Yuan Tian	arxiv.org/pdf/2403.06…	null
2024-03-09	General surgery vision transformer: A video pre-trained foundation model for general surgery	普通外科视觉转换器：普通外科视频预训练基础模型	Samuel Schmidgall, Ji Woong Kim, Jeffery Jopling, Axel Krieger	arxiv.org/pdf/2403.05…	null
2024-03-09	Segmentation Guided Sparse Transformer for Under-Display Camera Image Restoration	用于屏下摄像头图像恢复的分段引导稀疏变压器	Jingyun Xue, Tao Wang, Jun Wang, Kaihao Zhang, Wenhan Luo, Wenqi Ren, Zikun Liu, Hyunhee Park, Xiaochun Cao	arxiv.org/pdf/2403.05…	null
2024-03-09	Frequency Attention for Knowledge Distillation	知识蒸馏的频率关注	Cuong Pham, Van-Anh Nguyen, Trung Le, Dinh Phung, Gustavo Carneiro, Thanh-Toan Do	arxiv.org/pdf/2403.05…	null
2024-03-09	SPAFormer: Sequential 3D Part Assembly with Transformers	SPAFormer：使用 Transformer 进行顺序 3D 零件组装	Boshen Xu, Sipeng Zheng, Qin Jin	arxiv.org/pdf/2403.05…	null
2024-03-09	SSF-Net: Spatial-Spectral Fusion Network with Spectral Angle Awareness for Hyperspectral Object Tracking	SSF-Net：具有光谱角度感知的空间光谱融合网络，用于高光谱物体跟踪	Hanzheng Wang, Wei Li, Xiang-Gen Xia, Qian Du, Jing Tian	arxiv.org/pdf/2403.05…	null
2024-03-09	Long-term Frame-Event Visual Tracking: Benchmark Dataset and Baseline	长期帧事件视觉跟踪：基准数据集和基线	Xiao Wang, Ju Huang, Shiao Wang, Chuanming Tang, Bo Jiang, Yonghong Tian, Jin Tang, Bin Luo	arxiv.org/pdf/2403.05…	null
2024-03-09	And Then the Hammer Broke: Reflections on Machine Ethics from Feminist Philosophy of Science	然后锤子碎了：女性主义科学哲学对机器伦理的反思	Andre Ye	arxiv.org/pdf/2403.05…	null

3D/CG

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-03-09	MATRIX: Multi-Agent Trajectory Generation with Diverse Contexts	MATRIX：具有不同上下文的多智能体轨迹生成	Zhuo Xu, Rui Zhou, Yida Yin, Huidong Gao, Masayoshi Tomizuka, Jiachen Li	arxiv.org/pdf/2403.06…	null
2024-03-09	Classifying Objects in 3D Point Clouds Using Recurrent Neural Network: A GRU LSTM Hybrid Approach	使用递归神经网络对 3D 点云中的对象进行分类：GRU LSTM 混合方法	Ramin Mousa, Mitra Khezli, Saba Hesaraki	arxiv.org/pdf/2403.05…	null
2024-03-09	Learned 3D volumetric recovery of clouds and its uncertainty for climate analysis	了解云的 3D 体积恢复及其气候分析的不确定性	Roi Ronen, Ilan Koren, Aviad Levis, Eshkol Eytan, Vadim Holodovsky, Yoav Y. Schechner	arxiv.org/pdf/2403.05…	null
2024-03-09	CSCNET: Class-Specified Cascaded Network for Compositional Zero-Shot Learning	CSCNET：用于组合零样本学习的类指定级联网络	Yanyi Zhang, Qi Jia, Xin Fan, Yu Liu, Ran He	arxiv.org/pdf/2403.05…	null
2024-03-09	Mask-Enhanced Segment Anything Model for Tumor Lesion Semantic Segmentation	用于肿瘤病变语义分割的掩模增强分段任意模型	Hairong Shi, Songhao Han, Shaofei Huang, Yue Liao, Guanbin Li, Xiangxing Kong, Hua Zhu, Xiaomu Wang, Si Liu	arxiv.org/pdf/2403.05…	null
2024-03-09	Lightning NeRF: Efficient Hybrid Scene Representation for Autonomous Driving	Lightning NeRF：自动驾驶的高效混合场景表示	Junyi Cao, Zhichao Li, Naiyan Wang, Chao Ma	arxiv.org/pdf/2403.05…	null
2024-03-09	Fast Kernel Scene Flow	快速内核场景流程	Xueqian Li, Simon Lucey	arxiv.org/pdf/2403.05…	null
2024-03-09	MirrorAttack: Backdoor Attack on 3D Point Cloud with a Distorting Mirror	MirrorAttack：使用扭曲镜子对 3D 点云进行后门攻击	Yuhao Bian, Shengjing Tian, Xiuping Liu	arxiv.org/pdf/2403.05…	null
2024-03-09	SAFDNet: A Simple and Effective Network for Fully Sparse 3D Object Detection	SAFDNet：用于完全稀疏 3D 对象检测的简单有效的网络	Gang Zhang, Junnan Chen, Guohuan Gao, Jianmin Li, Si Liu, Xiaolin Hu	arxiv.org/pdf/2403.05…	null
2024-03-09	Towards Deviation-Robust Agent Navigation via Perturbation-Aware Contrastive Learning	通过扰动感知对比学习实现偏差鲁棒智能体导航	Bingqian Lin, Yanxin Long, Yi Zhu, Fengda Zhu, Xiaodan Liang, Qixiang Ye, Liang Lin	arxiv.org/pdf/2403.05…	null
2024-03-09	UDCR: Unsupervised Aortic DSA/CTA Rigid Registration Using Deep Reinforcement Learning and Overlap Degree Calculation	UDCR：使用深度强化学习和重叠度计算的无监督主动脉 DSA/CTA 刚性配准	Wentao Liu, Bowen Liang, Weijin Xu, Tong Tian, Qingsheng Lu, Xipeng Pan, Haoyuan Li, Siyu Tian, Huihua Yang, Ruisheng Su	arxiv.org/pdf/2403.05…	null

各类学习方式

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-03-09	Semi-Supervised Multimodal Multi-Instance Learning for Aortic Stenosis Diagnosis	主动脉瓣狭窄诊断的半监督多模态多实例学习	Zhe Huang, Xiaowei Yu, Benjamin S. Wessler, Michael C. Hughes	arxiv.org/pdf/2403.06…	null
2024-03-09	Generalizing to Out-of-Sample Degradations via Model Reprogramming	通过模型重新编程推广到样本外退化	Runhua Jiang, Yahong Han	arxiv.org/pdf/2403.05…	null
2024-03-09	uniGradICON: A Foundation Model for Medical Image Registration	uniGradICON：医学图像配准的基础模型	Lin Tian, Hastings Greer, Roland Kwitt, Francois-Xavier Vialard, Raul San Jose Estepar, Sylvain Bouix, Richard Rushmore, Marc Niethammer	arxiv.org/pdf/2403.05…	null
2024-03-09	Deep Contrastive Multi-view Clustering under Semantic Feature Guidance	语义特征引导下的深度对比多视图聚类	Siwen Liu, Jinyan Liu, Hanning Yuan, Qi Li, Jing Geng, Ziqiang Yuan, Huaxu Han	arxiv.org/pdf/2403.05…	null

其他

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-03-09	Multi-conditioned Graph Diffusion for Neural Architecture Search	用于神经架构搜索的多条件图扩散	Rohan Asthana, Joschua Conrad, Youssef Dawoud, Maurits Ortmanns, Vasileios Belagiannis	arxiv.org/pdf/2403.06…	null
2024-03-09	Hard-label based Small Query Black-box Adversarial Attack	基于硬标签的小查询黑盒对抗攻击	Jeonghwan Park, Paul Miller, Niall McLaughlin	arxiv.org/pdf/2403.06…	null
2024-03-09	Are Classification Robustness and Explanation Robustness Really Strongly Correlated? An Analysis Through Input Loss Landscape	分类稳健性和解释稳健性真的强相关吗？输入损耗情况分析	Tiejin Chen, Wenwang Huang, Linsey Pang, Dongsheng Luo, Hua Wei	arxiv.org/pdf/2403.06…	null
2024-03-09	Can Generative Models Improve Self-Supervised Representation Learning?	生成模型可以改善自我监督的表征学习吗？	Arash Afkanpour, Vahid Reza Khazaie, Sana Ayromlou, Fereshteh Forghani	arxiv.org/pdf/2403.05…	null
2024-03-09	Robust Emotion Recognition in Context Debiasing	上下文去偏中的鲁棒情感识别	Dingkang Yang, Kun Yang, Mingcheng Li, Shunli Wang, Shuaibing Wang, Lihua Zhang	arxiv.org/pdf/2403.05…	null
2024-03-09	IOI: Invisible One-Iteration Adversarial Attack on No-Reference Image- and Video-Quality Metrics	IOI：对无参考图像和视频质量指标的隐形一次迭代对抗性攻击	Ekaterina Shumitskaya, Anastasia Antsiferova, Dmitriy Vatolin	arxiv.org/pdf/2403.05…	null
2024-03-09	Wavelet-Like Transform-Based Technology in Response to the Call for Proposals on Neural Network-Based Image Coding	基于类小波变换的技术响应基于神经网络的图像编码提案的呼吁	Cunhui Dong, Haichuan Ma, Haotian Zhang, Changsheng Gao, Li Li, Dong Liu	arxiv.org/pdf/2403.05…	null
2024-03-09	GPT as Psychologist? Preliminary Evaluations for GPT-4V on Visual Affective Computing	GPT 作为心理学家？ GPT-4V视觉情感计算的初步评估	Hao Lu, Xuesong Niu, Jiyao Wang, Yin Wang, Qingyong Hu, Jiaqi Tang, Yuting Zhang, Kaishen Yuan, Bin Huang, Zitong Yu, et.al.	arxiv.org/pdf/2403.05…	null
2024-03-09	RealNet: A Feature Selection Network with Realistic Synthetic Anomaly for Anomaly Detection	RealNet：用于异常检测的具有真实合成异常的特征选择网络	Ximiao Zhang, Min Xu, Xiuzhuang Zhou	arxiv.org/pdf/2403.05…	null
2024-03-09	POV: Prompt-Oriented View-Agnostic Learning for Egocentric Hand-Object Interaction in the Multi-View World	POV：多视图世界中以自我为中心的手部物体交互的面向提示的与视图无关的学习	Boshen Xu, Sipeng Zheng, Qin Jin	arxiv.org/pdf/2403.05…	null
2024-03-09	Diffusion Lens: Interpreting Text Encoders in Text-to-Image Pipelines	扩散透镜：解释文本到图像管道中的文本编码器	Michael Toker, Hadas Orgad, Mor Ventura, Dana Arad, Yonatan Belinkov	arxiv.org/pdf/2403.05…	null
2024-03-09	Recurrent Aligned Network for Generalized Pedestrian Trajectory Prediction	用于广义行人轨迹预测的循环对齐网络	Yonghao Dong, Le Wang, Sanping Zhou, Gang Hua, Changyin Sun	arxiv.org/pdf/2403.05…	null
2024-03-09	Adaptive Multi-modal Fusion of Spatially Variant Kernel Refinement with Diffusion Model for Blind Image Super-Resolution	盲图像超分辨率空间变异核细化与扩散模型的自适应多模态融合	Junxiong Lin, Yan Wang, Zeng Tao, Boyang Wang, Qing Zhao, Haorang Wang, Xuan Tong, Xinji Mai, Yuxuan Lin, Wei Song, et.al.	arxiv.org/pdf/2403.05…	null
2024-03-09	A self-supervised CNN for image watermark removal	用于图像水印去除的自监督 CNN	Chunwei Tian, Menghua Zheng, Tiancai Jiao, Wangmeng Zuo, Yanning Zhang, Chia-Wen Lin	arxiv.org/pdf/2403.05…	null
2024-03-09	Weakly Supervised Change Detection via Knowledge Distillation and Multiscale Sigmoid Inference	通过知识蒸馏和多尺度 Sigmoid 推理进行弱监督变化检测	Binghao Lu, Caiwen Ding, Jinbo Bi, Dongjin Song	arxiv.org/pdf/2403.05…	null
2024-03-09	Unveiling Ancient Maya Settlements Using Aerial LiDAR Image Segmentation	使用航空激光雷达图像分割揭开古代玛雅定居点的面纱	Jincheng Zhang, William Ringle, Andrew R. Willis	arxiv.org/pdf/2403.05…	null
2024-03-09	Automating Catheterization Labs with Real-Time Perception	通过实时感知实现导管插入实验室自动化	Fan Yang, Benjamin Planche, Meng Zheng, Cheng Chen, Terrence Chen, Ziyan Wu	arxiv.org/pdf/2403.05…	null