[分享][每日更新][2024.01.15][CV_arxiv_papers][UPDATED!] 2024-01-15

[UPDATED!] 2024-01-15 (Publish Time)

分类/检测/识别/分割

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-01-15	Convolutional Neural Network Compression via Dynamic Parameter Rank Pruning	通过动态参数秩剪枝的卷积神经网络压缩	Manish Sharma, Jamison Heard, Eli Saber, Panos P. Markopoulos	arxiv.org/pdf/2401.08…	null
2024-01-15	Jewelry Recognition via Encoder-Decoder Models	通过编码器-解码器模型进行珠宝识别	José M. Alcalde-Llergo, Enrique Yeguas-Bolívar, Andrea Zingoni, Alejandro Fuerte-Jurado	arxiv.org/pdf/2401.08…	null
2024-01-15	How does self-supervised pretraining improve robustness against noisy labels across various medical image classification datasets?	自监督预训练如何提高各种医学图像分类数据集中针对噪声标签的鲁棒性？	Bidur Khanal, Binod Bhattarai, Bishesh Khanal, Cristian Linte	arxiv.org/pdf/2401.07…	null
2024-01-15	Machine Perceptual Quality: Evaluating the Impact of Severe Lossy Compression on Audio and Image Models	机器感知质量：评估严重有损压缩对音频和图像模型的影响	Dan Jacobellis, Daniel Cummings, Neeraja J. Yadwadkar	arxiv.org/pdf/2401.07…	null
2024-01-15	Vertical Federated Image Segmentation	垂直联合图像分割	Paul K. Mandal, Cole Leo	arxiv.org/pdf/2401.07…	null
2024-01-15	Machine Learning Based Object Tracking	基于机器学习的对象跟踪	Md Rakibul Karim Akanda, Joshua Reynolds, Treylin Jackson, Milijah Gray	arxiv.org/pdf/2401.07…	null
2024-01-15	VeCAF: VLM-empowered Collaborative Active Finetuning with Training Objective Awareness	VeCAF：VLM 赋能的具有训练目标意识的协作主动微调	Rongyu Zhang, Zefan Cai, Huanrui Yang, Zidong Liu, Denis Gudovskiy, Tomoyuki Okuno, Yohei Nakata, Kurt Keutzer, Baobao Chang, Yuan Du, et.al.	arxiv.org/pdf/2401.07…	null
2024-01-15	Phenotyping calcification in vascular tissues using artificial intelligence	使用人工智能对血管组织中的钙化进行表型分析	Mehdi Ramezanpour, Anne M. Robertson, Yasutaka Tobe, Xiaowei Jia, Juan R. Cebral	arxiv.org/pdf/2401.07…	null
2024-01-15	Pedestrian Detection in Low-Light Conditions: A Comprehensive Survey	弱光条件下的行人检测：综合调查	Bahareh Ghari, Ali Tourani, Asadollah Shahbahrami, Georgi Gaydadjiev	arxiv.org/pdf/2401.07…	null
2024-01-15	Fusing Echocardiography Images and Medical Records for Continuous Patient Stratification	融合超声心动图图像和医疗记录以进行连续患者分层	Nathan Painchaud, Pierre-Yves Courand, Pierre-Marc Jodoin, Nicolas Duchateau, Olivier Bernard	arxiv.org/pdf/2401.07…	null
2024-01-15	Improving OCR Quality in 19th Century Historical Documents Using a Combined Machine Learning Based Approach	使用基于机器学习的组合方法提高 19 世纪历史文档的 OCR 质量	David Fleischhacker, Wolfgang Goederle, Roman Kern	arxiv.org/pdf/2401.07…	null
2024-01-15	Seeing the Unseen: Visual Common Sense for Semantic Placement	看到看不见的东西：语义放置的视觉常识	Ram Ramrakhya, Aniruddha Kembhavi, Dhruv Batra, Zsolt Kira, Kuo-Hao Zeng, Luca Weihs	arxiv.org/pdf/2401.07…	null
2024-01-15	DeepThalamus: A novel deep learning method for automatic segmentation of brain thalamic nuclei from multimodal ultra-high resolution MRI	DeepThalamus：一种新颖的深度学习方法，用于从多模态超高分辨率 MRI 中自动分割大脑丘脑核	Marina Ruiz-Perez, Sergio Morell-Ortega, Marien Gadea, Roberto Vivo-Hernando, Gregorio Rubio, Fernando Aparici, Mariam de la Iglesia-Vaya, Thomas Tourdias, Pierrick Coupé, José V. Manjón	arxiv.org/pdf/2401.07…	null
2024-01-15	MaskClustering: View Consensus based Mask Graph Clustering for Open-Vocabulary 3D Instance Segmentation	MaskClustering：用于开放词汇 3D 实例分割的基于视图共识的掩模图聚类	Mi Yan, Jiazhao Zhang, Yan Zhu, He Wang	arxiv.org/pdf/2401.07…	null
2024-01-15	Graph Transformer GANs with Graph Masked Modeling for Architectural Layout Generation	用于生成架构布局的具有图形屏蔽建模的图形转换器 GAN	Hao Tang, Ling Shao, Nicu Sebe, Luc Van Gool	arxiv.org/pdf/2401.07…	null
2024-01-15	FiGCLIP: Fine-Grained CLIP Adaptation via Densely Annotated Videos	FiGCLIP：通过密集注释视频进行细粒度 CLIP 适应	Darshan Singh S, Zeeshan Khan, Makarand Tapaswi	arxiv.org/pdf/2401.07…	null
2024-01-15	Foundation Models for Biomedical Image Segmentation: A Survey	生物医学图像分割的基础模型：调查	Ho Hin Lee, Yu Gu, Theodore Zhao, Yanbo Xu, Jianwei Yang, Naoto Usuyama, Cliff Wong, Mu Wei, Bennett A. Landman, Yuankai Huo, et.al.	arxiv.org/pdf/2401.07…	null
2024-01-15	SwinTextSpotter v2: Towards Better Synergy for Scene Text Spotting	SwinTextSpotter v2：实现更好的场景文本识别协同作用	Mingxin Huang, Dezhi Peng, Hongliang Li, Zhenghao Peng, Chongyu Liu, Dahua Lin, Yuliang Liu, Xiang Bai, Lianwen Jin	arxiv.org/pdf/2401.07…	null
2024-01-15	Fine-Grained Prototypes Distillation for Few-Shot Object Detection	用于少样本目标检测的细粒度原型蒸馏	Zichen Wang, Bo Yang, Haonan Yue, Zhenghao Ma	arxiv.org/pdf/2401.07…	null
2024-01-15	Collaboratively Self-supervised Video Representation Learning for Action Recognition	用于动作识别的协作自监督视频表示学习	Jie Zhang, Zhifan Wan, Lanqing Hu, Stephen Lin, Shuzhe Wu, Shiguang Shan	arxiv.org/pdf/2401.07…	null
2024-01-15	Geo-locating Road Objects using Inverse Haversine Formula with NVIDIA Driveworks	使用 NVIDIA Driveworks 的反半正弦公式对道路对象进行地理定位	Mamoona Birkhez Shami, Gabriel Kiss, Trond Arve Haakonsen, Frank Lindseth	arxiv.org/pdf/2401.07…	null
2024-01-15	PMFSNet: Polarized Multi-scale Feature Self-attention Network For Lightweight Medical Image Segmentation	PMFSNet：用于轻量级医学图像分割的偏振多尺度特征自注意力网络	Jiahui Zhong, Wenhong Tian, Yuanlun Xie, Zhijia Liu, Jie Ou, Taoran Tian, Lei Zhang	arxiv.org/pdf/2401.07…	null
2024-01-15	Exploiting GPT-4 Vision for Zero-shot Point Cloud Understanding	利用 GPT-4 视觉实现零样本点云理解	Qi Sun, Xiao Cui, Wengang Zhou, Houqiang Li	arxiv.org/pdf/2401.07…	null
2024-01-15	Combining Image- and Geometric-based Deep Learning for Shape Regression: A Comparison to Pixel-level Methods for Segmentation in Chest X-Ray	结合基于图像和几何的深度学习进行形状回归：胸部 X 射线分割的像素级方法的比较	Ron Keuth, Mattias Heinrich	arxiv.org/pdf/2401.07…	null
2024-01-15	MM-SAP: A Comprehensive Benchmark for Assessing Self-Awareness of Multimodal Large Language Models in Perception	MM-SAP：评估感知中多模态大语言模型自我意识的综合基准	Yuhao Wang, Yusheng Liao, Heyang Liu, Hongcheng Liu, Yu Wang, Yanfeng Wang	arxiv.org/pdf/2401.07…	null
2024-01-15	Compositional Oil Spill Detection Based on Object Detector and Adapted Segment Anything Model from SAR Images	基于目标检测器和 SAR 图像自适应分段任意模型的合成溢油检测	Wenhui Wu, Man Sing Wong, Xinyu Yu, Guoqiang Shi, Coco Yin Tung Kwok, Kang Zou	arxiv.org/pdf/2401.07…	null
2024-01-15	Harnessing Deep Learning and Satellite Imagery for Post-Buyout Land Cover Mapping	利用深度学习和卫星图像进行收购后土地覆盖测绘	Hakan T. Otal, Elyse Zavar, Sherri B. Binder, Alex Greer, M. Abdullah Canbaz	arxiv.org/pdf/2401.07…	null
2024-01-15	Robo-ABC: Affordance Generalization Beyond Categories via Semantic Correspondence for Robot Manipulation	Robo-ABC：通过机器人操作的语义对应进行超越类别的可供性概括	Yuanchen Ju, Kaizhe Hu, Guowei Zhang, Gu Zhang, Mingrun Jiang, Huazhe Xu	arxiv.org/pdf/2401.07…	null
2024-01-15	CascadeV-Det: Cascade Point Voting for 3D Object Detection	CascadeV-Det：用于 3D 对象检测的级联点投票	Yingping Liang, Ying Fu	arxiv.org/pdf/2401.07…	null
2024-01-15	Semantic Segmentation in Multiple Adverse Weather Conditions with Domain Knowledge Retention	具有领域知识保留的多种恶劣天气条件下的语义分割	Xin Yang, Wending Yan, Yuan Yuan, Michael Bi Mi, Robby T. Tan	arxiv.org/pdf/2401.07…	null
2024-01-15	BoNuS: Boundary Mining for Nuclei Segmentation with Partial Point Labels	BoNuS：使用部分点标签进行核分割的边界挖掘	Yi Lin, Zeyu Wang, Dong Zhang, Kwang-Ting Cheng, Hao Chen	arxiv.org/pdf/2401.07…	null

模型压缩/优化

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-01-15	A Deep Hierarchical Feature Sparse Framework for Occluded Person Re-Identification	用于被遮挡人员重新识别的深层层次特征稀疏框架	Yihu Song, Shuaishi Liu	arxiv.org/pdf/2401.07…	null

生成模型

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-01-15	Towards A Better Metric for Text-to-Video Generation	寻求更好的文本到视频生成指标	Jay Zhangjie Wu, Guian Fang, Haoning Wu, Xintao Wang, Yixiao Ge, Xiaodong Cun, David Junhao Zhang, Jia-Wei Liu, Yuchao Gu, Rui Zhao, et.al.	arxiv.org/pdf/2401.07…	null
2024-01-15	HexaGen3D: StableDiffusion is just one step away from Fast and Diverse Text-to-3D Generation	HexaGen3D：StableDiffusion 距离快速、多样化的文本到 3D 生成仅一步之遥	Antoine Mercier, Ramin Nakhli, Mahesh Reddy, Rajeev Yasarla, Hong Cai, Fatih Porikli, Guillaume Berger	arxiv.org/pdf/2401.07…	null
2024-01-15	Towards Efficient Diffusion-Based Image Editing with Instant Attention Masks	使用即时注意力蒙版实现高效的基于扩散的图像编辑	Siyu Zou, Jiji Tang, Yiyi Zhou, Jing He, Chaoyi Zhao, Rongsheng Zhang, Zhipeng Hu, Xiaoshuai Sun	arxiv.org/pdf/2401.07…	null
2024-01-15	Multimodal Crowd Counting with Pix2Pix GANs	使用 Pix2Pix GAN 进行多模式人群计数	Muhammad Asif Khan, Hamid Menouar, Ridha Hamila	arxiv.org/pdf/2401.07…	null
2024-01-15	InstantID: Zero-shot Identity-Preserving Generation in Seconds	InstantID：几秒钟内零次身份保存生成	Qixun Wang, Xu Bai, Haofan Wang, Zekui Qin, Anthony Chen	arxiv.org/pdf/2401.07…	null
2024-01-15	Hierarchical Fashion Design with Multi-stage Diffusion Models	多级扩散模型的分层时装设计	Zhifeng Xie, Hao li, Huiming Ding, Mengtian Li, Ying Cao	arxiv.org/pdf/2401.07…	null
2024-01-15	Cross Domain Early Crop Mapping using CropGAN and CNN Classifier	使用 CropGAN 和 CNN 分类器进行跨域早期作物绘图	Yiqun Wang, Hui Huang, Radu State	arxiv.org/pdf/2401.07…	null

多模态

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-01-15	$M^{2}$ Fusion: Bayesian-based Multimodal Multi-level Fusion on Colorectal Cancer Microsatellite Instability Prediction	$M^{2}$ Fusion：基于贝叶斯的结直肠癌微卫星不稳定性预测多模态多级融合	Quan Liu, Jiawen Yao, Lisha Yao, Xin Chen, Jingren Zhou, Le Lu, Ling Zhang, Zaiyi Liu, Yuankai Huo	arxiv.org/pdf/2401.07…	null
2024-01-15	Uncovering the Full Potential of Visual Grounding Methods in VQA	发掘 VQA 中视觉接地方法的全部潜力	Daniel Reich, Tanja Schultz	arxiv.org/pdf/2401.07…	null
2024-01-15	A Bi-Pyramid Multimodal Fusion Method for the Diagnosis of Bipolar Disorders	用于诊断双相情感障碍的双金字塔多模态融合方法	Guoxin Wang, Sheng Shi, Shan An, Fengmei Fan, Wenshu Ge, Qi Wang, Feng Yu, Zhiren Wang	arxiv.org/pdf/2401.07…	null
2024-01-15	Bias-Conflict Sample Synthesis and Adversarial Removal Debias Strategy for Temporal Sentence Grounding in Video	视频中时间句子扎根的偏差冲突样本合成和对抗性消除去偏差策略	Zhaobo Qi, Yibo Yuan, Xiaowen Ruan, Shuhui Wang, Weigang Zhang, Qingming Huang	arxiv.org/pdf/2401.07…	null
2024-01-15	One for All: Toward Unified Foundation Models for Earth Vision	为所有人服务：迈向地球愿景的统一基础模型	Zhitong Xiong, Yi Wang, Fahong Zhang, Xiao Xiang Zhu	arxiv.org/pdf/2401.07…	null

Transformer

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-01-15	GD-CAF: Graph Dual-stream Convolutional Attention Fusion for Precipitation Nowcasting	GD-CAF：用于降水临近预报的图双流卷积注意力融合	Lorand Vatamany, Siamak Mehrkanoon	arxiv.org/pdf/2401.07…	null
2024-01-15	Transformer-based Video Saliency Prediction with High Temporal Dimension Decoding	基于变压器的视频显着性预测与高时间维度解码	Morteza Moradi, Simone Palazzo, Concetto Spampinato	arxiv.org/pdf/2401.07…	null
2024-01-15	Information hiding cameras: optical concealment of object information into ordinary images	信息隐藏相机：将物体信息光学隐藏到普通图像中	Bijie Bai, Ryan Lee, Yuhang Li, Tianyi Gan, Yuntian Wang, Mona Jarrahi, Aydogan Ozcan	arxiv.org/pdf/2401.07…	null
2024-01-15	Exploring Masked Autoencoders for Sensor-Agnostic Image Retrieval in Remote Sensing	探索用于遥感中与传感器无关的图像检索的掩模自动编码器	Jakob Hackstein, Gencer Sumbul, Kai Norman Clasen, Begüm Demir	arxiv.org/pdf/2401.07…	null

3D/CG

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-01-15	SSL-Interactions: Pretext Tasks for Interactive Trajectory Prediction	SSL-Interactions：交互式轨迹预测的借口任务	Prarthana Bhattacharyya, Chengjie Huang, Krzysztof Czarnecki	arxiv.org/pdf/2401.07…	null

各类学习方式

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-01-15	Sparsity-based background removal for STORM super-resolution images	基于稀疏性的 STORM 超分辨率图像背景去除	Patris Valera, Josué Page Vizcaíno, Tobias Lasser	arxiv.org/pdf/2401.07…	null

其他

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-01-15	Cesium Tiles for High-realism Simulation and Comparing SLAM Results in Corresponding Virtual and Real-world Environments	用于高真实度模拟并比较相应虚拟和现实环境中 SLAM 结果的 Cesium Tiles	Chris Beam, Jincheng Zhang, Nicholas Kakavitsas, Collin Hague, Artur Wolek, Andrew Willis	arxiv.org/pdf/2401.07…	null
2024-01-15	Image Similarity using An Ensemble of Context-Sensitive Models	使用上下文敏感模型集合进行图像相似度	Zukang Liao, Min Chen	arxiv.org/pdf/2401.07…	null
2024-01-15	Low-light Stereo Image Enhancement and De-noising in the Low-frequency Information Enhanced Image Space	低频信息增强图像空间中的微光立体图像增强与去噪	Minghua Zhao, Xiangdong Qin, Shuangli Du, Xuefei Bai, Jiahao Lyu, Yiguang Liu	arxiv.org/pdf/2401.07…	null
2024-01-15	Curriculum for Crowd Counting -- Is it Worthy?	人群计数课程——值得吗？	Muhammad Asif Khan, Hamid Menouar, Ridha Hamila	arxiv.org/pdf/2401.07…	null
2024-01-15	PolMERLIN: Self-Supervised Polarimetric Complex SAR Image Despeckling with Masked Networks	PolMERLIN：使用掩模网络进行自监督偏振复合 SAR 图像去斑	Shunya Kato, Masaki Saito, Katsuhiko Ishiguro, Sol Cummings	arxiv.org/pdf/2401.07…	null
2024-01-15	Concept-Guided Prompt Learning for Generalization in Vision-Language Models	用于视觉语言模型泛化的概念引导即时学习	Yi Zhang, Ce Zhang, Ke Yu, Yushun Tang, Zhihai He	arxiv.org/pdf/2401.07…	null
2024-01-15	Mask-adaptive Gated Convolution and Bi-directional Progressive Fusion Network for Depth Completion	用于深度完成的掩模自适应门控卷积和双向渐进融合网络	Tingxuan Huang, Jiacheng Miao, Shizhuo Deng, Tong, Dongyue Chen	arxiv.org/pdf/2401.07…	null
2024-01-15	Improved Implicity Neural Representation with Fourier Bases Reparameterized Training	通过傅里叶基重新参数化训练改进隐式神经表示	Kexuan Shi, Xingyu Zhou, Shuhang Gu	arxiv.org/pdf/2401.07…	null