[分享][每日更新][2024.01.18][CV_arxiv_papers] [UPDATED!] 2024-01-1

[UPDATED!] 2024-01-18 (Publish Time)

分类/检测/识别/分割

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-01-18	OMG-Seg: Is One Model Good Enough For All Segmentation?	OMG-Seg：一种模型足以适用于所有细分吗？	Xiangtai Li, Haobo Yuan, Wei Li, Henghui Ding, Size Wu, Wenwei Zhang, Yining Li, Kai Chen, Chen Change Loy	arxiv.org/pdf/2401.10…	null
2024-01-18	RAP-SAM: Towards Real-Time All-Purpose Segment Anything	RAP-SAM：迈向实时通用分段任何内容	Shilin Xu, Haobo Yuan, Qingyu Shi, Lu Qi, Jingbo Wang, Yibo Yang, Yining Li, Kai Chen, Yunhai Tong, Bernard Ghanem, et.al.	arxiv.org/pdf/2401.10…	null
2024-01-18	A Simple Latent Diffusion Approach for Panoptic Segmentation and Mask Inpainting	用于全景分割和掩模修复的简单潜在扩散方法	Wouter Van Gansbeke, Bert De Brabandere	arxiv.org/pdf/2401.10…	null
2024-01-18	Explaining the Implicit Neural Canvas: Connecting Pixels to Neurons by Tracing their Contributions	解释隐式神经画布：通过追踪像素的贡献将像素与神经元连接起来	Namitha Padmanabhan, Matthew Gwilliam, Pulkit Kumar, Shishira R Maiya, Max Ehrlich, Abhinav Shrivastava	arxiv.org/pdf/2401.10…	null
2024-01-18	Comprehensive OOD Detection Improvements	全面的 OOD 检测改进	Anish Lakkapragada, Amol Khanna, Edward Raff, Nathan Inkawhich	arxiv.org/pdf/2401.10…	null
2024-01-18	Few-shot learning for COVID-19 Chest X-Ray Classification with Imbalanced Data: An Inter vs. Intra Domain Study	具有不平衡数据的 COVID-19 胸部 X 射线分类的少样本学习：域间与域内研究	Alejandro Galán-Cuenca, Antonio Javier Gallego, Marcelo Saval-Calvo, Antonio Pertusa	arxiv.org/pdf/2401.10…	null
2024-01-18	Exposing Lip-syncing Deepfakes from Mouth Inconsistencies	揭露口型不一致的 Deepfakes	Soumyya Kanti Datta, Shan Jia, Siwei Lyu	arxiv.org/pdf/2401.10…	null
2024-01-18	VIPTR: A Vision Permutable Extractor for Fast and Efficient Scene Text Recognition	VIPTR：用于快速高效场景文本识别的视觉可变换提取器	Xianfu Cheng, Weixiao Zhou, Xiang Li, Xiaoming Chen, Jian Yang, Tongliang Li, Zhoujun Li	arxiv.org/pdf/2401.10…	null
2024-01-18	ContextMix: A context-aware data augmentation method for industrial visual inspection systems	ContextMix：工业视觉检测系统的上下文感知数据增强方法	Hyungmin Kim, Donghun Kim, Pyunghwan Ahn, Sungho Suh, Hansang Cho, Junmo Kim	arxiv.org/pdf/2401.10…	null
2024-01-18	Deep spatial context: when attention-based models meet spatial regression	深层空间上下文：当基于注意力的模型遇到空间回归时	Paulina Tomaszewska, Elżbieta Sienkiewicz, Mai P. Hoang, Przemysław Biecek	arxiv.org/pdf/2401.10…	null
2024-01-18	CMFN: Cross-Modal Fusion Network for Irregular Scene Text Recognition	CMFN：用于不规则场景文本识别的跨模态融合网络	Jinzhi Zheng, Ruyi Ji, Libo Zhang, Yanjun Wu, Chen Zhao	arxiv.org/pdf/2401.10…	null
2024-01-18	GPT4Ego: Unleashing the Potential of Pre-trained Models for Zero-Shot Egocentric Action Recognition	GPT4Ego：释放预训练模型的潜力，实现零样本自我中心动作识别	Guangzhao Dai, Xiangbo Shu, Wenhao Wu	arxiv.org/pdf/2401.10…	null
2024-01-18	Depth Over RGB: Automatic Evaluation of Open Surgery Skills Using Depth Camera	Depth Over RGB：使用深度相机自动评估开放手术技能	Ido Zuckerman, Nicole Werner, Jonathan Kouchly, Emma Huston, Shannon DiMarco, Paul DiMusto, Shlomi Laufer	arxiv.org/pdf/2401.10…	null
2024-01-18	Text Region Multiple Information Perception Network for Scene Text Detection	用于场景文本检测的文本区域多信息感知网络	Jinzhi Zheng, Libo Zhang, Yanjun Wu, Chen Zhao	arxiv.org/pdf/2401.10…	null
2024-01-18	BPDO:Boundary Points Dynamic Optimization for Arbitrary Shape Scene Text Detection	BPDO：任意形状场景文本检测的边界点动态优化	Jinzhi Zheng, Libo Zhang, Yanjun Wu, Chen Zhao	arxiv.org/pdf/2401.09…	null
2024-01-18	Developing an AI-based Integrated System for Bee Health Evaluation	开发基于人工智能的蜜蜂健康评估综合系统	Andrew Liang	arxiv.org/pdf/2401.09…	null
2024-01-18	Ventricular Segmentation: A Brief Comparison of U-Net Derivatives	心室分割：U-Net 导数的简要比较	Ketan Suhaas Saichandran	arxiv.org/pdf/2401.09…	null
2024-01-18	CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects	CustomVideo：自定义多个主题的文本到视频生成	Zhao Wang, Aoxue Li, Enze Xie, Lingting Zhu, Yong Guo, Qi Dou, Zhenguo Li	arxiv.org/pdf/2401.09…	null
2024-01-18	Multi-task Learning for Joint Re-identification, Team Affiliation, and Role Classification for Sports Visual Tracking	用于运动视觉跟踪的联合重新识别、团队归属和角色分类的多任务学习	Amir M. Mansourian, Vladimir Somers, Christophe De Vleeschouwer, Shohreh Kasaei	arxiv.org/pdf/2401.09…	null
2024-01-18	ICGNet: A Unified Approach for Instance-Centric Grasping	ICGNet：以实例为中心的抓取的统一方法	René Zurbrügg, Yifan Liu, Francis Engelmann, Suryansh Kumar, Marco Hutter, Vaishakh Patil, Fisher Yu	arxiv.org/pdf/2401.09…	null
2024-01-18	MAMBA: Multi-level Aggregation via Memory Bank for Video Object Detection	MAMBA：通过内存库进行多级聚合，用于视频对象检测	Guanxiong Sun, Yang Hua, Guosheng Hu, Neil Robertson	arxiv.org/pdf/2401.09…	null
2024-01-18	BlenDA: Domain Adaptive Object Detection through diffusion-based blending	BlenDA：通过基于扩散的混合进行域自适应对象检测	Tzuhsuan Huang, Chen-Che Huang, Chung-Hao Ku, Jun-Cheng Chen	arxiv.org/pdf/2401.09…	null
2024-01-18	XAI-Enhanced Semantic Segmentation Models for Visual Quality Inspection	用于视觉质量检测的 XAI 增强语义分割模型	Tobias Clement, Truong Thanh Hung Nguyen, Mohamed Abdelaal, Hung Cao	arxiv.org/pdf/2401.09…	null
2024-01-18	Skeleton-Guided Instance Separation for Fine-Grained Segmentation in Microscopy	用于显微镜中细粒度分割的骨架引导实例分离	Jun Wang, Chengfeng Zhou, Zhaoyan Ming, Lina Wei, Xudong Jiang, Dahong Qian	arxiv.org/pdf/2401.09…	null
2024-01-18	Question-Answer Cross Language Image Matching for Weakly Supervised Semantic Segmentation	用于弱监督语义分割的问答跨语言图像匹配	Songhe Deng, Wei Zhuo, Jinheng Xie, Linlin Shen	arxiv.org/pdf/2401.09…	null
2024-01-18	Boosting Few-Shot Segmentation via Instance-Aware Data Augmentation and Local Consensus Guided Cross Attention	通过实例感知数据增强和局部共识引导交叉注意力来促进少样本分割	Li Guo, Haoming Liu, Yuxuan Xia, Chengyu Zhang, Xiaochen Lu	arxiv.org/pdf/2401.09…	null
2024-01-18	Improving fine-grained understanding in image-text pre-training	提高图像文本预训练的细粒度理解	Ioana Bica, Anastasija Ilić, Matthias Bauer, Goker Erdogan, Matko Bošnjak, Christos Kaplanis, Alexey A. Gritsenko, Matthias Minderer, Charles Blundell, Razvan Pascanu, et.al.	arxiv.org/pdf/2401.09…	null
2024-01-18	Enhancing the Fairness and Performance of Edge Cameras with Explainable AI	通过可解释的人工智能增强边缘摄像头的公平性和性能	Truong Thanh Hung Nguyen, Vo Thanh Khang Nguyen, Quoc Hung Cao, Van Binh Truong, Quoc Khanh Nguyen, Hung Cao	arxiv.org/pdf/2401.09…	null
2024-01-18	Slicer Networks	切片器网络	Hang Zhang, Xiang Chen, Rongguang Wang, Renjiu Hu, Dongdong Liu, Gaolei Li	arxiv.org/pdf/2401.09…	null
2024-01-18	Enhanced Automated Quality Assessment Network for Interactive Building Segmentation in High-Resolution Remote Sensing Imagery	用于高分辨率遥感图像中交互式建筑分割的增强型自动化质量评估网络	Zhili Zhang, Xiangyun Hu, Jiabo Xu	arxiv.org/pdf/2401.09…	null
2024-01-18	Boosting Few-Shot Semantic Segmentation Via Segment Anything Model	通过 Segment Anything 模型促进少样本语义分割	Chen-Bin Feng, Qi Lai, Kangdao Liu, Houcheng Su, Chi-Man Vong	arxiv.org/pdf/2401.09…	null
2024-01-18	Enhancing Small Object Encoding in Deep Neural Networks: Introducing Fast&Focused-Net with Volume-wise Dot Product Layer	增强深度神经网络中的小对象编码：引入具有体积点积层的 Fast&Focused-Net	Ali Tofik, Roy Partha Pratim	arxiv.org/pdf/2401.09…	null
2024-01-18	Multilingual Visual Speech Recognition with a Single Model by Learning with Discrete Visual Speech Units	通过学习离散视觉语音单元，使用单一模型进行多语言视觉语音识别	Minsu Kim, Jeong Hun Yeo, Jeongsoo Choi, Se Jin Park, Yong Man Ro	arxiv.org/pdf/2401.09…	null
2024-01-18	BreastRegNet: A Deep Learning Framework for Registration of Breast Faxitron and Histopathology Images	BreastRegNet：用于注册乳房 Faxitron 和组织病理学图像的深度学习框架	Negar Golestani, Aihui Wang, Gregory R Bean, Mirabela Rusu	arxiv.org/pdf/2401.09…	null
2024-01-18	Adaptive Self-training Framework for Fine-grained Scene Graph Generation	用于细粒度场景图生成的自适应自训练框架	Kibum Kim, Kanghoon Yoon, Yeonjun In, Jinyoung Moon, Donghyun Kim, Chanyoung Park	arxiv.org/pdf/2401.09…	null
2024-01-18	On the Audio Hallucinations in Large Audio-Video Language Models	论大型音视频语言模型中的幻听	Taichi Nishimura, Shota Nakada, Masayoshi Kondo	arxiv.org/pdf/2401.09…	null
2024-01-18	SEINE: Structure Encoding and Interaction Network for Nuclei Instance Segmentation	SEINE：用于核实例分割的结构编码和交互网络	Ye Zhang, Linghan Cai, Ziyue Wang, Yongbing Zhang	arxiv.org/pdf/2401.09…	null
2024-01-18	SlideAVSR: A Dataset of Paper Explanation Videos for Audio-Visual Speech Recognition	SlideAVSR：用于视听语音识别的论文讲解视频数据集	Hao Wang, Shuhei Kurita, Shuichiro Shimizu, Daisuke Kawahara	arxiv.org/pdf/2401.09…	null
2024-01-18	Instance Brownian Bridge as Texts for Open-vocabulary Video Instance Segmentation	实例布朗桥作为开放词汇视频实例分割的文本	Zesen Cheng, Kehan Li, Hao Li, Peng Jin, Chang Liu, Xiawu Zheng, Rongrong Ji, Jie Chen	arxiv.org/pdf/2401.09…	null
2024-01-18	P2Seg: Pointly-supervised Segmentation via Mutual Distillation	P2Seg：通过相互蒸馏进行点监督分割	Zipeng Wang, Xuehui Yu, Xumeng Han, Wenwen Yu, Zhixun Huang, Jianbin Jiao, Zhenjun Han	arxiv.org/pdf/2401.09…	null

模型压缩/优化

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-01-18	Model Compression Techniques in Biometrics Applications: A Survey	生物识别应用中的模型压缩技术：调查	Eduarda Caldeira, Pedro C. Neto, Marco Huber, Naser Damer, Ana F. Sequeira	arxiv.org/pdf/2401.10…	null

生成模型

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-01-18	ParaHome: Parameterizing Everyday Home Activities Towards 3D Generative Modeling of Human-Object Interactions	ParaHome：参数化日常家庭活动以实现人机交互的 3D 生成模型	Jeonghwan Kim, Jisoo Kim, Jeonghyeon Na, Hanbyul Joo	arxiv.org/pdf/2401.10…	null
2024-01-18	Edit One for All: Interactive Batch Image Editing	编辑一应俱全：交互式批量图像编辑	Thao Nguyen, Utkarsh Ojha, Yuheng Li, Haotian Liu, Yong Jae Lee	arxiv.org/pdf/2401.10…	null
2024-01-18	MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer	MM-Interleaved：通过多模态特征同步器进行交错图像文本生成建模	Changyao Tian, Xizhou Zhu, Yuwen Xiong, Weiyun Wang, Zhe Chen, Wenhai Wang, Yuntao Chen, Lewei Lu, Tong Lu, Jie Zhou, et.al.	arxiv.org/pdf/2401.10…	null
2024-01-18	Motion-Zero: Zero-Shot Moving Object Control Framework for Diffusion-Based Video Generation	Motion-Zero：用于基于扩散的视频生成的零镜头移动对象控制框架	Changgu Chen, Junwei Shu, Lianggangxu Chen, Gaoqi He, Changbo Wang, Yang Li	arxiv.org/pdf/2401.10…	null
2024-01-18	DiffusionGPT: LLM-Driven Text-to-Image Generation System	DiffusionGPT：法学硕士驱动的文本到图像生成系统	Jie Qin, Jie Wu, Weifeng Chen, Yuxi Ren, Huixia Li, Hefeng Wu, Xuefeng Xiao, Rui Wang, Shilei Wen	arxiv.org/pdf/2401.10…	null
2024-01-18	Exploring Latent Cross-Channel Embedding for Accurate 3D Human Pose Reconstruction in a Diffusion Framework	探索潜在跨通道嵌入，以在扩散框架中实现准确的 3D 人体姿势重建	Junkun Jiang, Jie Chen	arxiv.org/pdf/2401.09…	null
2024-01-18	Wavelet-Guided Acceleration of Text Inversion in Diffusion-Based Image Editing	基于扩散的图像编辑中文本反转的小波引导加速	Gwanhyeong Koo, Sunjae Yoon, Chang D. Yoo	arxiv.org/pdf/2401.09…	null
2024-01-18	CLIP Model for Images to Textual Prompts Based on Top-k Neighbors	基于Top-k邻居的图像到文本提示的CLIP模型	Xin Zhang, Xin Zhang, YeMing Cai, Tianzhi Jia	arxiv.org/pdf/2401.09…	null
2024-01-18	Image Translation as Diffusion Visual Programmers	作为扩散视觉程序员的图像翻译	Cheng Han, James C. Liang, Qifan Wang, Majid Rabbani, Sohail Dianat, Raghuveer Rao, Ying Nian Wu, Dongfang Liu	arxiv.org/pdf/2401.09…	null
2024-01-18	Towards Identifiable Unsupervised Domain Translation: A Diversified Distribution Matching Approach	迈向可识别的无监督领域翻译：多样化的分布匹配方法	Sagar Shrestha, Xiao Fu	arxiv.org/pdf/2401.09…	null

多模态

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-01-18	Towards Language-Driven Video Inpainting via Multimodal Large Language Models	通过多模态大语言模型实现语言驱动的视频修复	Jianzong Wu, Xiangtai Li, Chenyang Si, Shangchen Zhou, Jingkang Yang, Jiangning Zhang, Yining Li, Kai Chen, Yunhai Tong, Ziwei Liu, et.al.	arxiv.org/pdf/2401.10…	null
2024-01-18	CPCL: Cross-Modal Prototypical Contrastive Learning for Weakly Supervised Text-based Person Re-Identification	CPCL：用于弱监督的基于文本的人员重新识别的跨模态原型对比学习	Yanwei Zheng, Xinpeng Zhao, Chuanlin Lan, Xiaowei Zhang, Bowen Huang, Jibin Yang, Dongxiao Yu	arxiv.org/pdf/2401.10…	null
2024-01-18	Advancing Large Multi-modal Models with Explicit Chain-of-Reasoning and Visual Question Generation	通过显式推理链和视觉问题生成推进大型多模态模型	Kohei Uehara, Nabarun Goswami, Hanqin Wang, Toshiaki Baba, Kohtaro Tanaka, Tomohiro Hashimoto, Kai Wang, Rei Ito, Takagi Naoya, Ryo Umagami, et.al.	arxiv.org/pdf/2401.10…	null
2024-01-18	WorldDreamer: Towards General World Models for Video Generation via Predicting Masked Tokens	WorldDreamer：通过预测屏蔽令牌实现视频生成的通用世界模型	Xiaofeng Wang, Zheng Zhu, Guan Huang, Boyuan Wang, Xinze Chen, Jiwen Lu	arxiv.org/pdf/2401.09…	null
2024-01-18	Temporal Insight Enhancement: Mitigating Temporal Hallucination in Multimodal Large Language Models	时间洞察力增强：减轻多模态大语言模型中的时间幻觉	Li Sun, Liuan Wang, Jun Sun, Takayuki Okatani	arxiv.org/pdf/2401.09…	null
2024-01-18	SkyEyeGPT: Unifying Remote Sensing Vision-Language Tasks via Instruction Tuning with Large Language Model	SkyEyeGPT：通过大型语言模型的指令调整来统一遥感视觉语言任务	Yang Zhan, Zhitong Xiong, Yuan Yuan	arxiv.org/pdf/2401.09…	null

Transformer

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-01-18	Supervised Fine-tuning in turn Improves Visual Foundation Models	有监督的微调反过来改进了视觉基础模型	Xiaohu Jiang, Yixiao Ge, Yuying Ge, Chun Yuan, Ying Shan	arxiv.org/pdf/2401.10…	null
2024-01-18	GPAvatar: Generalizable and Precise Head Avatar from Image(s)	GPAvatar：来自图像的可概括且精确的头像	Xuangeng Chu, Yu Li, Ailing Zeng, Tianyu Yang, Lijian Lin, Yunfei Liu, Tatsuya Harada	arxiv.org/pdf/2401.10…	null
2024-01-18	VMamba: Visual State Space Model	VMamba：视觉状态空间模型	Yue Liu, Yunjie Tian, Yuzhong Zhao, Hongtian Yu, Lingxi Xie, Yaowei Wang, Qixiang Ye, Yunfan Liu	arxiv.org/pdf/2401.10…	null
2024-01-18	Explicitly Disentangled Representations in Object-Centric Learning	以对象为中心的学习中的显式解缠表示	Riccardo Majellaro, Jonathan Collu, Aske Plaat, Thomas M. Moerland	arxiv.org/pdf/2401.10…	null
2024-01-18	Cross-Modality Perturbation Synergy Attack for Person Re-identification	用于人员重新识别的跨模态扰动协同攻击	Yunpeng Gong, others	arxiv.org/pdf/2401.10…	null
2024-01-18	HCVP: Leveraging Hierarchical Contrastive Visual Prompt for Domain Generalization	HCVP：利用分层对比视觉提示进行领域泛化	Guanglin Zhou, Zhongyi Han, Shiming Chen, Biwei Huang, Liming Zhu, Tongliang Liu, Lina Yao, Kun Zhang	arxiv.org/pdf/2401.09…	null

3DGS

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-01-18	GaussianBody: Clothed Human Reconstruction via 3d Gaussian Splatting	GaussianBody：通过 3d 高斯泼溅重建穿着衣服的人体	Mengtian Li, Shengxiang Yao, Zhifeng Xie, Keyu Chen, Yu-Gang Jiang	arxiv.org/pdf/2401.09…	null

3D/CG

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-01-18	SHINOBI: Shape and Illumination using Neural Object Decomposition via BRDF Optimization In-the-wild	SHINOBI：通过 BRDF 优化在野外使用神经对象分解的形状和照明	Andreas Engelhardt, Amit Raj, Mark Boss, Yunzhi Zhang, Abhishek Kar, Yuanzhen Li, Deqing Sun, Ricardo Martin Brualla, Jonathan T. Barron, Hendrik P. A. Lensch, et.al.	arxiv.org/pdf/2401.10…	null
2024-01-18	Measuring the Discrepancy between 3D Geometric Models using Directional Distance Fields	使用定向距离场测量 3D 几何模型之间的差异	Siyu Ren, Junhui Hou, Xiaodong Chen, Hongkai Xiong, Wenping Wang	arxiv.org/pdf/2401.09…	null
2024-01-18	fast graph-based denoising for point cloud color information	基于图的快速点云颜色信息去噪	Ryosuke Watanabe, Keisuke Nonaka, Eduardo Pavez, Tatsuya Kobayashi, Antonio Ortega	arxiv.org/pdf/2401.09…	null
2024-01-18	Eye Motion Matters for 3D Face Reconstruction	眼动对于 3D 面部重建很重要	Xuan Wang, Mengyuan Liu	arxiv.org/pdf/2401.09…	null

各类学习方式

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-01-18	Divide and not forget: Ensemble of selectively trained experts in Continual Learning	分开但不要忘记：经过选择性培训的持续学习专家团队	Grzegorz Rypeść, Sebastian Cygert, Valeriya Khan, Tomasz Trzciński, Bartosz Zieliński, Bartłomiej Twardowski	arxiv.org/pdf/2401.10…	null

其他

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-01-18	The Manga Whisperer: Automatically Generating Transcriptions for Comics	漫画低语者：自动生成漫画转录	Ragav Sachdeva, Andrew Zisserman	arxiv.org/pdf/2401.10…	null
2024-01-18	AutoFT: Robust Fine-Tuning by Optimizing Hyperparameters on OOD Data	AutoFT：通过优化 OOD 数据的超参数进行鲁棒微调	Caroline Choi, Yoonho Lee, Annie Chen, Allan Zhou, Aditi Raghunathan, Chelsea Finn	arxiv.org/pdf/2401.10…	null
2024-01-18	Neural Echos: Depthwise Convolutional Filters Replicate Biological Receptive Fields	神经回声：深度卷积滤波器复制生物感受野	Zahra Babaiee, Peyman M. Kiasari, Daniela Rus, Radu Grosu	arxiv.org/pdf/2401.10…	null
2024-01-18	Sub2Full: split spectrum to boost OCT despeckling without clean data	Sub2Full：分割光谱以增强 OCT 去斑效果，无需干净数据	Lingyun Wang, Jose A Sahel, Shaohua Pi	arxiv.org/pdf/2401.10…	null
2024-01-18	Artwork Protection Against Neural Style Transfer Using Locally Adaptive Adversarial Color Attack	使用局部自适应对抗性颜色攻击来保护艺术品免受神经风格迁移	Zhongliang Guo, Kaixuan Wang, Weiye Li, Yifei Qian, Ognjen Arandjelović, Lei Fang	arxiv.org/pdf/2401.09…	null