[分享][每日更新][2024.01.22][CV_arxiv_papers][UPDATED!] 2024-01-22

[UPDATED!] 2024-01-22 (Publish Time)

分类/检测/识别/分割

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-01-22	Exploring Simple Open-Vocabulary Semantic Segmentation	探索简单的开放词汇语义分割	Zihang Lai	arxiv.org/pdf/2401.12…	null
2024-01-22	Connecting the Dots: Leveraging Spatio-Temporal Graph Neural Networks for Accurate Bangla Sign Language Recognition	连接点：利用时空图神经网络进行准确的孟加拉手语识别	Haz Sameen Shahgir, Khondker Salman Sayeed, Md Toki Tahmid, Tanjeem Azwad Zaman, Md. Zarif Ul Alam	arxiv.org/pdf/2401.12…	null
2024-01-22	OK-Robot: What Really Matters in Integrating Open-Knowledge Models for Robotics	OK-Robot：集成机器人开放知识模型真正重要的是什么	Peiqi Liu, Yaswanth Orru, Chris Paxton, Nur Muhammad Mahi Shafiullah, Lerrel Pinto	arxiv.org/pdf/2401.12…	null
2024-01-22	Broiler-Net: A Deep Convolutional Framework for Broiler Behavior Analysis in Poultry Houses	Broiler-Net：用于家禽舍中肉鸡行为分析的深度卷积框架	Tahereh Zarrat Ehsan, Seyed Mehdi Mohtavipour	arxiv.org/pdf/2401.12…	null
2024-01-22	Semi-supervised segmentation of land cover images using nonlinear canonical correlation analysis with multiple features and t-SNE	使用多特征非线性典型相关分析和 t-SNE 对土地覆盖图像进行半监督分割	Hong Wei, James Xiao, Yichao Zhang, Xia Hong	arxiv.org/pdf/2401.12…	null
2024-01-22	Automated facial recognition system using deep learning for pain assessment in adults with cerebral palsy	使用深度学习的自动面部识别系统对脑瘫成人患者进行疼痛评估	Álvaro Sabater-Gárriz, F. Xavier Gaya-Morey, José María Buades-Rubio, Cristina Manresa Yee, Pedro Montoya, Inmaculada Riquelme	arxiv.org/pdf/2401.12…	null
2024-01-22	VRMN-bD: A Multi-modal Natural Behavior Dataset of Immersive Human Fear Responses in VR Stand-up Interactive Games	VRMN-bD：VR 单口互动游戏中沉浸式人类恐惧反应的多模态自然行为数据集	He Zhang, Xinyang Li, Yuanxi Sun, Xinyi Fu, Christine Qiu, John M. Carroll	arxiv.org/pdf/2401.12…	null
2024-01-22	Out-of-Distribution Detection & Applications With Ablated Learned Temperature Energy	具有消融学习温度能量的分布外检测和应用	Will LeVine, Benjamin Pikus, Jacob Phillips, Berk Norman, Fernando Amat Gil, Sean Hendryx	arxiv.org/pdf/2401.12…	null
2024-01-22	DeepCERES: A Deep learning method for cerebellar lobule segmentation using ultra-high resolution multimodal MRI	DeepCERES：使用超高分辨率多模态 MRI 进行小脑小叶分割的深度学习方法	Sergio Morell-Ortega, Marina Ruiz-Perez, Marien Gadea, Roberto Vivo-Hernando, Gregorio Rubio, Fernando Aparici, Mariam de la Iglesia-Vaya, Gwenaelle Catheline, Pierrick Coupé, José V. Manjón	arxiv.org/pdf/2401.12…	null
2024-01-22	CloSe: A 3D Clothing Segmentation Dataset and Model	CloSe：3D 服装分割数据集和模型	Dimitrije Antić, Garvita Tiwari, Batuhan Ozcomlekci, Riccardo Marin, Gerard Pons-Moll	arxiv.org/pdf/2401.12…	null
2024-01-22	HomeRobot Open Vocabulary Mobile Manipulation Challenge 2023 Participant Report (Team KuzHum)	HomeRobot 开放词汇移动操作挑战赛 2023 参赛者报告（KuzHum 团队）	Volodymyr Kuzma, Vladyslav Humennyy, Ruslan Partsey	arxiv.org/pdf/2401.12…	null
2024-01-22	Look, Listen and Recognise: Character-Aware Audio-Visual Subtitling	看、听、认：角色感知视听字幕	Bruno Korbar, Jaesung Huh, Andrew Zisserman	arxiv.org/pdf/2401.12…	null
2024-01-22	A Saliency Enhanced Feature Fusion based multiscale RGB-D Salient Object Detection Network	基于显着性增强特征融合的多尺度 RGB-D 显着目标检测网络	Rui Huang, Qingyi Zhao, Yan Xing, Sihua Gao, Weifeng Xu, Yuxiang Zhang, Wei Fan	arxiv.org/pdf/2401.11…	null
2024-01-22	Large receptive field strategy and important feature extraction strategy in 3D object detection	3D物体检测中的大感受野策略和重要特征提取策略	Leichao Cui, Xiuxian Li, Min Meng	arxiv.org/pdf/2401.11…	null
2024-01-22	Evaluating the Feasibility of Standard Facial Expression Recognition in Individuals with Moderate to Severe Intellectual Disabilities	评估标准面部表情识别对中度至重度智力障碍个体的可行性	F. Xavier Gaya-Morey, Silvia Ramis, Jose M. Buades-Rubio, Cristina Manresa-Yee	arxiv.org/pdf/2401.11…	null
2024-01-22	Detect-Order-Construct: A Tree Construction based Approach for Hierarchical Document Structure Analysis	检测-顺序-构造：一种基于树构造的分层文档结构分析方法	Jiawei Wang, Kai Hu, Zhuoyao Zhong, Lei Sun, Qiang Huo	arxiv.org/pdf/2401.11…	null
2024-01-22	MOSformer: Momentum encoder-based inter-slice fusion transformer for medical image segmentation	MOSformer：用于医学图像分割的基于动量编码器的层间融合变压器	De-Xing Huang, Xiao-Hu Zhou, Xiao-Liang Xie, Shi-Qi Liu, Zhen-Qiu Feng, Mei-Jiang Gui, Hao Li, Tian-Yu Xiang, Xiu-Ling Liu, Zeng-Guang Hou	arxiv.org/pdf/2401.11…	null
2024-01-22	SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by Visual-Textual Contrastive Learning	SignVTCL：通过视觉文本对比学习增强多模式连续手语识别	Hao Chen, Jiaze Wang, Ziyu Guo, Jinpeng Li, Donghao Zhou, Bian Wu, Chenyong Guan, Guangyong Chen, Pheng-Ann Heng	arxiv.org/pdf/2401.11…	null
2024-01-22	Unveiling the Human-like Similarities of Automatic Facial Expression Recognition: An Empirical Exploration through Explainable AI	揭示自动面部表情识别的类人相似性：通过可解释的人工智能进行实证探索	F. Xavier Gaya-Morey, Silvia Ramis-Guarinos, Cristina Manresa-Yee, Jose M. Buades-Rubio	arxiv.org/pdf/2401.11…	null
2024-01-22	Rethinking Centered Kernel Alignment in Knowledge Distillation	重新思考知识蒸馏中的中心内核对齐	Zikai Zhou, Yunhang Shen, Shitong Shao, Huanran Chen, Linrui Gong, Shaohui Lin	arxiv.org/pdf/2401.11…	null
2024-01-22	Symbrain: A large-scale dataset of MRI images for neonatal brain symmetry analysis	Symbrain：用于新生儿大脑对称性分析的大规模 MRI 图像数据集	Arnaud Gucciardi, Safouane El Ghazouali, Francesca Venturini, Vida Groznik, Umberto Michelucci	arxiv.org/pdf/2401.11…	null
2024-01-22	SemPLeS: Semantic Prompt Learning for Weakly-Supervised Semantic Segmentation	SemPLeS：弱监督语义分割的语义提示学习	Ci-Siang Lin, Chien-Yi Wang, Yu-Chiang Frank Wang, Min-Hung Chen	arxiv.org/pdf/2401.11…	null
2024-01-22	Deep Learning for Computer Vision based Activity Recognition and Fall Detection of the Elderly: a Systematic Review	基于计算机视觉的深度学习老年人活动识别和跌倒检测：系统综述	F. Xavier Gaya-Morey, Cristina Manresa-Yee, Jose M. Buades-Rubio	arxiv.org/pdf/2401.11…	null
2024-01-22	Collaborative Position Reasoning Network for Referring Image Segmentation	用于参考图像分割的协作位置推理网络	Jianjian Cao, Beiya Dai, Yulin Li, Xiameng Qin, Jingdong Wang	arxiv.org/pdf/2401.11…	null
2024-01-22	Concealed Object Segmentation with Hierarchical Coherence Modeling	使用分层一致性建模的隐藏对象分割	Fengyang Xiao, Pan Zhang, Chunming He, Runze Hu, Yutao Liu	arxiv.org/pdf/2401.11…	null
2024-01-22	EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models	EmerDiff：扩散模型中新兴的像素级语义知识	Koichi Namekata, Amirmojtaba Sabour, Sanja Fidler, Seung Wook Kim	arxiv.org/pdf/2401.11…	null
2024-01-22	MetaSeg: Content-Aware Meta-Net for Omni-Supervised Semantic Segmentation	MetaSeg：用于全监督语义分割的内容感知元网络	Shenwang Jiang, Jianan Li, Ying Wang, Wenxuan Wu, Jizhou Zhang, Bo Huang, Tingfa Xu	arxiv.org/pdf/2401.11…	null
2024-01-22	Colorectal Polyp Segmentation in the Deep Learning Era: A Comprehensive Survey	深度学习时代的结直肠息肉分割：综合调查	Zhenyu Wu, Fengmao Lv, Chenglizhao Chen, Aimin Hao, Shuo Li	arxiv.org/pdf/2401.11…	null
2024-01-22	Detecting Out-of-Distribution Samples via Conditional Distribution Entropy with Optimal Transport	通过具有最佳传输的条件分布熵检测分布外样本	Chuanwen Feng, Wenlong Chen, Ao Ke, Yilong Ren, Xike Xie, S. Kevin Zhou	arxiv.org/pdf/2401.11…	null
2024-01-22	Augmenting Prototype Network with TransMix for Few-shot Hyperspectral Image Classification	使用 TransMix 增强原型网络以实现少样本高光谱图像分类	Chun Liu, Longwei Yang, Dongmei Dong, Zheng Li, Wei Yang, Zhigang Han, Jiayao Wang	arxiv.org/pdf/2401.11…	null
2024-01-22	SFC: Shared Feature Calibration in Weakly Supervised Semantic Segmentation	SFC：弱监督语义分割中的共享特征校准	Xinqiao Zhao, Feilong Tang, Xiaoyang Wang, Jimin Xiao	arxiv.org/pdf/2401.11…	null
2024-01-22	MsSVT++: Mixed-scale Sparse Voxel Transformer with Center Voting for 3D Object Detection	MsSVT++：用于 3D 对象检测的具有中心投票功能的混合尺度稀疏体素变换器	Jianan Li, Shaocong Dong, Lihe Ding, Tingfa Xu	arxiv.org/pdf/2401.11…	null
2024-01-22	Medical Image Debiasing by Learning Adaptive Agreement from a Biased Council	通过从有偏见的委员会学习自适应协议来消除医学图像偏见	Luyang Luo, Xin Huang, Minghao Wang, Zhuoyue Wan, Hao Chen	arxiv.org/pdf/2401.11…	null
2024-01-22	EK-Net:Real-time Scene Text Detection with Expand Kernel Distance	EK-Net：扩展核距离的实时场景文本检测	Boyuan Zhu, Fagui Liu, Xi Chen, Quan Tang	arxiv.org/pdf/2401.11…	null
2024-01-22	Memory-Efficient Prompt Tuning for Incremental Histopathology Classification	用于增量组织病理学分类的内存高效提示调整	Yu Zhu, Kang Li, Lequan Yu, Pheng-Ann Heng	arxiv.org/pdf/2401.11…	null
2024-01-22	RTA-Former: Reverse Transformer Attention for Polyp Segmentation	RTA-Former：用于息肉分割的反向变压器注意力	Zhikai Li, Murong Yi, Ali Uneri, Sihan Niu, Craig Jones	arxiv.org/pdf/2401.11…	null
2024-01-22	ActionHub: A Large-scale Action Video Description Dataset for Zero-shot Action Recognition	ActionHub：用于零镜头动作识别的大规模动作视频描述数据集	Jiaming Zhou, Junwei Liang, Kun-Yu Lin, Jinrui Yang, Wei-Shi Zheng	arxiv.org/pdf/2401.11…	null
2024-01-22	M2-CLIP: A Multimodal, Multi-task Adapting Framework for Video Action Recognition	M2-CLIP：视频动作识别的多模态、多任务适应框架	Mengmeng Wang, Jiazheng Xing, Boyuan Jiang, Jun Chen, Jianbiao Mei, Xingxing Zuo, Guang Dai, Jingdong Wang, Yong Liu	arxiv.org/pdf/2401.11…	null
2024-01-22	Friends Across Time: Multi-Scale Action Segmentation Transformer for Surgical Phase Recognition	跨越时间的朋友：用于手术阶段识别的多尺度动作分段变压器	Bokai Zhang, Jiayuan Meng, Bin Cheng, Dean Biskup, Svetlana Petculescu, Angela Chapman	arxiv.org/pdf/2401.11…	null
2024-01-22	Zoom-shot: Fast and Efficient Unsupervised Zero-Shot Transfer of CLIP to Vision Encoders with Multimodal Loss	Zoom-shot：快速高效的无监督零样本将 CLIP 传输到具有多模态损失的视觉编码器	Jordan Shipard, Arnold Wiliem, Kien Nguyen Thanh, Wei Xiang, Clinton Fookes	arxiv.org/pdf/2401.11…	null

模型压缩/优化

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-01-22	LONEStar: The Lunar Flashlight Optical Navigation Experiment	LONEStar：月球手电筒光学导航实验	Michael Krause, Ava Thrasher, Priyal Soni, Liam Smego, Reuben Isaac, Jennifer Nolan, Micah Pledger, E. Glenn Lightsey, W. Jud Ready, John Christian	arxiv.org/pdf/2401.12…	null
2024-01-22	Stereo-Matching Knowledge Distilled Monocular Depth Estimation Filtered by Multiple Disparity Consistency	通过多重视差一致性过滤的立体匹配知识蒸馏单目深度估计	Woonghyun Ka, Jae Young Lee, Jaehyun Choi, Junmo Kim	arxiv.org/pdf/2401.12…	null
2024-01-22	Robustness to distribution shifts of compressed networks for edge devices	边缘设备压缩网络分布变化的鲁棒性	Lulan Shen, Ali Edalati, Brett Meyer, Warren Gross, James J. Clark	arxiv.org/pdf/2401.12…	null

OCR

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-01-22	CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark	CMMMU：中国大规模多学科多模态理解基准	Ge Zhang, Xinrun Du, Bei Chen, Yiming Liang, Tongxu Luo, Tianyu Zheng, Kang Zhu, Yuyang Cheng, Chunpu Xu, Shuyue Guo, et.al.	arxiv.org/pdf/2401.11…	null

生成模型

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-01-22	Single-View 3D Human Digitalization with Large Reconstruction Models	具有大型重建模型的单视图 3D 人体数字化	Zhenzhen Weng, Jingyuan Liu, Hao Tan, Zhan Xu, Yang Zhou, Serena Yeung-Levy, Jimei Yang	arxiv.org/pdf/2401.12…	null
2024-01-22	Feature Denoising Diffusion Model for Blind Image Quality Assessment	用于盲图像质量评估的特征去噪扩散模型	Xudong Li, Jingyuan Zheng, Runze Hu, Yan Zhang, Ke Li, Yunhang Shen, Xiawu Zheng, Yutao Liu, ShengChuan Zhang, Pingyang Dai, et.al.	arxiv.org/pdf/2401.11…	null
2024-01-22	A Fair Evaluation of Various Deep Learning-Based Document Image Binarization Approaches	对各种基于深度学习的文档图像二值化方法的公平评估	Richin Sukesh, Mathias Seuret, Anguelos Nicolaou, Martin Mayr, Vincent Christlein	arxiv.org/pdf/2401.11…	null
2024-01-22	Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs	掌握文本到图像的扩散：使用多模态法学硕士进行重述、规划和生成	Ling Yang, Zhaochen Yu, Chenlin Meng, Minkai Xu, Stefano Ermon, Bin Cui	arxiv.org/pdf/2401.11…	null

多模态

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-01-22	SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities	SpatialVLM：赋予视觉语言模型空间推理能力	Boyuan Chen, Zhuo Xu, Sean Kirmani, Brian Ichter, Danny Driess, Pete Florence, Dorsa Sadigh, Leonidas Guibas, Fei Xia	arxiv.org/pdf/2401.12…	null
2024-01-22	Benchmarking Large Multimodal Models against Common Corruptions	针对常见腐败对大型多模式模型进行基准测试	Jiawei Zhang, Tianyu Pang, Chao Du, Yi Ren, Bo Li, Min Lin	arxiv.org/pdf/2401.11…	null

LLM

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-01-22	CheXagent: Towards a Foundation Model for Chest X-Ray Interpretation	CheXagent：建立胸部 X 射线解读的基础模型	Zhihong Chen, Maya Varma, Jean-Benoit Delbrouck, Magdalini Paschali, Louis Blankemeier, Dave Van Veen, Jeya Maria Jose Valanarasu, Alaa Youssef, Joseph Paul Cohen, Eduardo Pontes Reis, et.al.	arxiv.org/pdf/2401.12…	null

Transformer

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-01-22	Less Could Be Better: Parameter-efficient Fine-tuning Advances Medical Vision Foundation Models	越少越好：参数高效的微调推进医学视觉基础模型	Chenyu Lian, Hong-Yu Zhou, Yizhou Yu, Liansheng Wang	arxiv.org/pdf/2401.12…	null
2024-01-22	LKFormer: Large Kernel Transformer for Infrared Image Super-Resolution	LKFormer：用于红外图像超分辨率的大型内核变压器	Feiwei Qin, Kang Yan, Changmiao Wang, Ruiquan Ge, Yong Peng, Kai Zhang	arxiv.org/pdf/2401.11…	null
2024-01-22	HG3-NeRF: Hierarchical Geometric, Semantic, and Photometric Guided Neural Radiance Fields for Sparse View Inputs	HG3-NeRF：用于稀疏视图输入的分层几何、语义和光度引导神经辐射场	Zelin Gao, Weichen Dai, Yu Zhang	arxiv.org/pdf/2401.11…	null
2024-01-22	TIM: An Efficient Temporal Interaction Module for Spiking Transformer	TIM：尖峰变压器的高效时间交互模块	Sicheng Shen, Dongcheng Zhao, Guobin Shen, Yi Zeng	arxiv.org/pdf/2401.11…	null
2024-01-22	MVSFormer++: Revealing the Devil in Transformer's Details for Multi-View Stereo	MVSFormer++：揭示 Transformer 多视图立体细节中的魔鬼	Chenjie Cao, Xinlin Ren, Yanwei Fu	arxiv.org/pdf/2401.11…	null
2024-01-22	OnDev-LCT: On-Device Lightweight Convolutional Transformers towards federated learning	OnDev-LCT：面向联邦学习的设备上轻量级卷积变压器	Chu Myaet Thwal, Minh N. H. Nguyen, Ye Lin Tun, Seong Tae Kim, My T. Thai, Choong Seon Hong	arxiv.org/pdf/2401.11…	null

Nerf

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-01-22	Scaling Face Interaction Graph Networks to Real World Scenes	将人脸交互图网络扩展到现实世界场景	Tatiana Lopez-Guevara, Yulia Rubanova, William F. Whitney, Tobias Pfaff, Kimberly Stachenfeld, Kelsey R. Allen	arxiv.org/pdf/2401.11…	null

3D/CG

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-01-22	Modeling Stereo-Confidence Out of the End-to-End Stereo-Matching Network via Disparity Plane Sweep	通过视差平面扫描对端到端立体匹配网络的立体置信度进行建模	Jae Young Lee, Woonghyun Ka, Jaehyun Choi, Junmo Kim	arxiv.org/pdf/2401.12…	null
2024-01-22	Observation-Guided Meteorological Field Downscaling at Station Scale: A Benchmark and a New Method	观测引导的站级气象场降尺度：基准和新方法	Zili Liu, Hao Chen, Lei Bai, Wenyuan Li, Keyan Chen, Zhengyi Wang, Wanli Ouyang, Zhengxia Zou, Zhenwei Shi	arxiv.org/pdf/2401.11…	null
2024-01-22	Local Agnostic Video Explanations: a Study on the Applicability of Removal-Based Explanations to Video	局部不可知视频解释：基于移除的解释对视频的适用性研究	F. Xavier Gaya-Morey, Jose M. Buades-Rubio, Cristina Manresa-Yee	arxiv.org/pdf/2401.11…	null
2024-01-22	Full-Body Motion Reconstruction with Sparse Sensing from Graph Perspective	图视角的稀疏感知全身运动重建	Feiyu Yao, Zongkai Wu, Li Yi	arxiv.org/pdf/2401.11…	null
2024-01-22	PointGL: A Simple Global-Local Framework for Efficient Point Cloud Analysis	PointGL：用于高效点云分析的简单全局局部框架	Jianan Li, Jie Wang, Tingfa Xu	arxiv.org/pdf/2401.11…	null

其他

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-01-22	Momentum-SAM: Sharpness Aware Minimization without Computational Overhead	Momentum-SAM：锐度感知最小化，无需计算开销	Marlon Becker, Frederick Altrock, Benjamin Risse	arxiv.org/pdf/2401.12…	null
2024-01-22	A Training-Free Defense Framework for Robust Learned Image Compression	用于鲁棒学习图像压缩的免训练防御框架	Myungseo Song, Jinyoung Choi, Bohyung Han	arxiv.org/pdf/2401.11…	null
2024-01-22	Adaptive Fusion of Multi-view Remote Sensing data for Optimal Sub-field Crop Yield Prediction	多视图遥感数据的自适应融合用于最佳子田作物产量预测	Francisco Mena, Deepak Pathak, Hiba Najjar, Cristhian Sanchez, Patrick Helber, Benjamin Bischke, Peter Habelitz, Miro Miranda, Jayanth Siddamsetty, Marlon Nuske, et.al.	arxiv.org/pdf/2401.11…	null
2024-01-22	Boosting Multi-view Stereo with Late Cost Aggregation	通过后期成本聚合增强多视图立体效果	Jiang Wu, Rui Li, Yu Zhu, Wenxun Zhao, Jinqiu Sun, Yanning Zhang	arxiv.org/pdf/2401.11…	null
2024-01-22	Multi-level Cross-modal Alignment for Image Clustering	图像聚类的多级跨模态对齐	Liping Qiu, Qin Zhang, Xiaojun Chen, Shaotian Cai	arxiv.org/pdf/2401.11…	null