[分享][每日更新][2024.02.08][CV_arxiv_papers]

2024-02-12 189 阅读13分钟

[UPDATED!] 2024-02-08 (Publish Time)

生成模型

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-02-08	CLR-Face: Conditional Latent Refinement for Blind Face Restoration Using Score-Based Diffusion Models	CLR-Face：使用基于分数的扩散模型进行盲脸恢复的条件潜在细化	Maitreya Suin, Rama Chellappa	arxiv.org/pdf/2402.06…	null
2024-02-08	Animated Stickers: Bringing Stickers to Life with Video Diffusion	动画贴纸：通过视频扩散让贴纸变得栩栩如生	David Yan, Winnie Zhang, Luxin Zhang, Anmol Kalia, Dingkang Wang, Ankit Ramchandani, Miao Liu, Albert Pumarola, Edgar Schoenfeld, Elliot Blanchard, et.al.	arxiv.org/pdf/2402.06…	null
2024-02-08	InstaGen: Enhancing Object Detection by Training on Synthetic Dataset	InstaGen：通过合成数据集训练增强目标检测	Chengjian Feng, Yujie Zhong, Zequn Jie, Weidi Xie, Lin Ma	arxiv.org/pdf/2402.05…	null
2024-02-08	Collaborative Control for Geometry-Conditioned PBR Image Generation	几何条件 PBR 图像生成的协作控制	Shimon Vainer, Mark Boss, Mathias Parger, Konstantin Kutsy, Dante De Nigris, Ciara Rowles, Nicolas Perony, Simon Donné	arxiv.org/pdf/2402.05…	null
2024-02-08	AvatarMMC: 3D Head Avatar Generation and Editing with Multi-Modal Conditioning	AvatarMMC：使用多模态调节生成和编辑 3D 头部头像	Wamiq Reyaz Para, Abdelrahman Eldesokey, Zhenyu Li, Pradyumna Reddy, Jiankang Deng, Peter Wonka	arxiv.org/pdf/2402.05…	null
2024-02-08	CTGAN: Semantic-guided Conditional Texture Generator for 3D Shapes	CTGAN：语义引导的 3D 形状条件纹理生成器	Yi-Ting Pan, Chai-Rong Lee, Shu-Ho Fan, Jheng-Wei Su, Jia-Bin Huang, Yung-Yu Chuang, Hung-Kuo Chu	arxiv.org/pdf/2402.05…	null
2024-02-08	DiffSpeaker: Speech-Driven 3D Facial Animation with Diffusion Transformer	DiffSpeaker：带有扩散变压器的语音驱动 3D 面部动画	Zhiyuan Ma, Xiangyu Zhu, Guojun Qi, Chen Qian, Zhaoxiang Zhang, Zhen Lei	arxiv.org/pdf/2402.05…	link
2024-02-08	Scalable Diffusion Models with State Space Backbone	具有状态空间主干的可扩展扩散模型	Zhengcong Fei, Mingyuan Fan, Changqian Yu, Junshi Huang	arxiv.org/pdf/2402.05…	link
2024-02-08	Joint End-to-End Image Compression and Denoising: Leveraging Contrastive Learning and Multi-Scale Self-ONNs	联合端到端图像压缩和去噪：利用对比学习和多尺度自 ONN	Yuxin Xie, Li Yu, Farhad Pakdaman, Moncef Gabbouj	arxiv.org/pdf/2402.05…	null
2024-02-08	Minecraft-ify: Minecraft Style Image Generation with Text-guided Image Editing for In-Game Application	Minecraft-ify：用于游戏内应用程序的 Minecraft 风格图像生成和文本引导图像编辑	Bumsoo Kim, Sanghyun Byun, Yonghoon Jung, Wonseop Shin, Sareer UI Amin, Sanghyun Seo	arxiv.org/pdf/2402.05…	null
2024-02-08	Scalable Wasserstein Gradient Flow for Generative Modeling through Unbalanced Optimal Transport	通过不平衡最优传输进行生成建模的可扩展 Wasserstein 梯度流	Jaemoo Choi, Jaewoong Choi, Myungjoo Kang	arxiv.org/pdf/2402.05…	null
2024-02-08	Get What You Want, Not What You Don't: Image Content Suppression for Text-to-Image Diffusion Models	得到你想要的，而不是你不想要的：文本到图像扩散模型的图像内容抑制	Senmao Li, Joost van de Weijer, Taihang Hu, Fahad Shahbaz Khan, Qibin Hou, Yaxing Wang, Jian Yang	arxiv.org/pdf/2402.05…	link
2024-02-08	Descanning: From Scanned to the Original Images with a Color Correction Diffusion Model	反扫描：使用色彩校正扩散模型从扫描图像到原始图像	Junghun Cha, Ali Haider, Seoyun Yang, Hoeyeong Jin, Subin Yang, A. F. M. Shahab Uddin, Jaehyoung Kim, Soo Ye Kim, Sung-Ho Bae	arxiv.org/pdf/2402.05…	null

多模态

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-02-08	CLIP-Loc: Multi-modal Landmark Association for Global Localization in Object-based Maps	CLIP-Loc：基于对象的地图中全球定位的多模式地标协会	Shigemichi Matsuzaki, Takuma Sugino, Kazuhito Tanaka, Zijun Sha, Shintaro Nakaoka, Shintaro Yoshizawa, Kazuhiro Shintani	arxiv.org/pdf/2402.06…	null
2024-02-08	SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models	SPHINX-X：缩放一系列多模态大型语言模型的数据和参数	Peng Gao, Renrui Zhang, Chris Liu, Longtian Qiu, Siyuan Huang, Weifeng Lin, Shitian Zhao, Shijie Geng, Ziyi Lin, Peng Jin, et.al.	arxiv.org/pdf/2402.05…	link
2024-02-08	WebLINX: Real-World Website Navigation with Multi-Turn Dialogue	WebLINX：具有多轮对话的真实世界网站导航	Xing Han Lù, Zdeněk Kasner, Siva Reddy	arxiv.org/pdf/2402.05…	null
2024-02-08	CREMA: Multimodal Compositional Video Reasoning via Efficient Modular Adaptation and Fusion	CREMA：通过高效模块化适应和融合进行多模态合成视频推理	Shoubin Yu, Jaehong Yoon, Mohit Bansal	arxiv.org/pdf/2402.05…	null
2024-02-08	FusionSF: Fuse Heterogeneous Modalities in a Vector Quantized Framework for Robust Solar Power Forecasting	FusionSF：在矢量量化框架中融合异构模式以实现稳健的太阳能预测	Ziqing Ma, Wenwei Wang, Tian Zhou, Chao Chen, Bingqing Peng, Liang Sun, Rong Jin	arxiv.org/pdf/2402.05…	null
2024-02-08	Question Aware Vision Transformer for Multimodal Reasoning	用于多模态推理的问题感知视觉转换器	Roy Ganz, Yair Kittenplon, Aviad Aberdam, Elad Ben Avraham, Oren Nuriel, Shai Mazor, Ron Litman	arxiv.org/pdf/2402.05…	null
2024-02-08	MTSA-SNN: A Multi-modal Time Series Analysis Model Based on Spiking Neural Network	MTSA-SNN：基于尖峰神经网络的多模态时间序列分析模型	Chengzhi Liu, Chong Zhong, Mingyu Jin, Zheng Tao, Zihong Luo, Chenghao Liu, Shuliang Zhao	arxiv.org/pdf/2402.05…	link
2024-02-09	Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey	知识图满足多模态学习：综合调查	Zhuo Chen, Yichi Zhang, Yin Fang, Yuxia Geng, Lingbing Guo, Xiang Chen, Qian Li, Wen Zhang, Jiaoyan Chen, Yushan Zhu, et.al.	arxiv.org/pdf/2402.05…	link
2024-02-08	CIC: A framework for Culturally-aware Image Captioning	CIC：具有文化意识的图像字幕框架	Youngsik Yun, Jihie Kim	arxiv.org/pdf/2402.05…	null

模型压缩/优化

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-02-08	Privacy-Preserving Synthetic Continual Semantic Segmentation for Robotic Surgery	用于机器人手术的隐私保护综合连续语义分割	Mengya Xu, Mobarakol Islam, Long Bai, Hongliang Ren	arxiv.org/pdf/2402.05…	link
2024-02-08	Flashback: Understanding and Mitigating Forgetting in Federated Learning	闪回：理解和减轻联邦学习中的遗忘	Mohammed Aljahdali, Ahmed M. Abdelmoniem, Marco Canini, Samuel Horváth	arxiv.org/pdf/2402.05…	null

分类/检测/识别/分割/...

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-02-08	Early Fusion of Features for Semantic Segmentation	语义分割的早期特征融合	Anupam Gupta, Ashok Krishnamurthy, Lisa Singh	arxiv.org/pdf/2402.06…	null
2024-02-08	Exploring Visual Culture Awareness in GPT-4V: A Comprehensive Probing	探索 GPT-4V 中的视觉文化意识：全面的探索	Yong Cao, Wenyan Li, Jiaang Li, Yifei Yuan, Daniel Hershcovich	arxiv.org/pdf/2402.06…	null
2024-02-08	Point-VOS: Pointing Up Video Object Segmentation	Point-VOS：指向上方视频对象分割	Idil Esen Zulfikar, Sabarinath Mahadevan, Paul Voigtlaender, Bastian Leibe	arxiv.org/pdf/2402.05…	null
2024-02-08	ClickSAM: Fine-tuning Segment Anything Model using click prompts for ultrasound image segmentation	ClickSAM：使用点击提示微调 Segment Anything Model 以进行超声图像分割	Aimee Guo, Gace Fei, Hemanth Pasupuletic, Jing Wang	arxiv.org/pdf/2402.05…	null
2024-02-08	Mamba-ND: Selective State Space Modeling for Multi-Dimensional Data	Mamba-ND：多维数据的选择性状态空间建模	Shufan Li, Harkanwar Singh, Aditya Grover	arxiv.org/pdf/2402.05…	null
2024-02-08	Using YOLO v7 to Detect Kidney in Magnetic Resonance Imaging: A Supervised Contrastive Learning	使用 YOLO v7 在磁共振成像中检测肾脏：监督对比学习	Pouria Yazdian Anari, Fiona Obiezu, Nathan Lay, Fatemeh Dehghani Firouzabadi, Aditi Chaurasia, Mahshid Golagha, Shiva Singh, Fatemeh Homayounieh, Aryan Zahergivar, Stephanie Harmon, et.al.	arxiv.org/pdf/2402.05…	null
2024-02-08	Jacquard V2: Refining Datasets using the Human In the Loop Data Correction Method	Jacquard V2：使用“人在环”数据校正方法细化数据集	Qiuhao Li, Shenghai Yuan	arxiv.org/pdf/2402.05…	null
2024-02-08	An Ordinal Regression Framework for a Deep Learning Based Severity Assessment for Chest Radiographs	基于深度学习的胸部 X 线照片严重性评估的序数回归框架	Patrick Wienholt, Alexander Hermans, Firas Khader, Behrus Puladi, Bastian Leibe, Christiane Kuhl, Sven Nebelung, Daniel Truhn	arxiv.org/pdf/2402.05…	link
2024-02-08	DAPlankton: Benchmark Dataset for Multi-instrument Plankton Recognition via Fine-grained Domain Adaptation	DAPlankton：通过细粒度域适应进行多仪器浮游生物识别的基准数据集	Daniel Batrakhanov, Tuomas Eerola, Kaisa Kraft, Lumi Haraguchi, Lasse Lensu, Sanna Suikkanen, María Teresa Camarena-Gómez, Jukka Seppälä, Heikki Kälviäinen	arxiv.org/pdf/2402.05…	null
2024-02-08	RESMatch: Referring Expression Segmentation in a Semi-Supervised Manner	RESMatch：半监督方式的引用表达分割	Ying Zang, Chenglong Fu, Runlong Cao, Didi Zhu, Min Zhang, Wenjun Hu, Lanyun Zhu, Tianrun Chen	arxiv.org/pdf/2402.05…	null
2024-02-08	One-Stop Automated Diagnostic System for Carpal Tunnel Syndrome in Ultrasound Images Using Deep Learning	使用深度学习的超声图像腕管综合症一站式自动诊断系统	Jiayu Peng, Jiajun Zeng, Manlin Lai, Ruobing Huang, Dong Ni, Zhenzhou Li	arxiv.org/pdf/2402.05…	null
2024-02-08	Efficient Expression Neutrality Estimation with Application to Face Recognition Utility Prediction	高效的表情中性估计及其在人脸识别效用预测中的应用	Marcel Grimmer, Raymond N. J. Veldhuis, Christoph Busch	arxiv.org/pdf/2402.05…	null
2024-02-08	Spiking Neural Network Enhanced Hand Gesture Recognition Using Low-Cost Single-photon Avalanche Diode Array	使用低成本单光子雪崩二极管阵列的尖峰神经网络增强手势识别	Zhenya Zang, Xingda Li, David Day Uei Li	arxiv.org/pdf/2402.05…	link
2024-02-08	Segmentation-free Connectionist Temporal Classification loss based OCR Model for Text Captcha Classification	基于无分割联结时间分类损失的文本验证码分类 OCR 模型	Vaibhav Khatavkar, Makarand Velankar, Sneha Petkar	arxiv.org/pdf/2402.05…	null
2024-02-08	SpirDet: Towards Efficient, Accurate and Lightweight Infrared Small Target Detector	SpirDet：迈向高效、准确、轻便的红外小目标探测器	Qianchen Mao, Qiang Li, Bingshu Wang, Yongjun Zhang, Tao Dai, C. L. Philip Chen	arxiv.org/pdf/2402.05…	null
2024-02-08	Optimizing for ROC Curves on Class-Imbalanced Data by Training over a Family of Loss Functions	通过对一系列损失函数进行训练来优化类不平衡数据上的 ROC 曲线	Kelsey Lieberman, Shuai Yuan, Swarna Kamlam Ravindran, Carlo Tomasi	arxiv.org/pdf/2402.05…	link
2024-02-08	On the Effect of Image Resolution on Semantic Segmentation	图像分辨率对语义分割的影响	Ritambhara Singh, Abhishek Jain, Pietro Perona, Shivani Agarwal, Junfeng Yang	arxiv.org/pdf/2402.05…	null
2024-02-08	Task-customized Masked AutoEncoder via Mixture of Cluster-conditional Experts	通过混合集群条件专家的任务定制屏蔽自动编码器	Zhili Liu, Kai Chen, Jianhua Han, Lanqing Hong, Hang Xu, Zhenguo Li, James T. Kwok	arxiv.org/pdf/2402.05…	null
2024-02-08	Scrapping The Web For Early Wildfire Detection	废弃网络以进行早期野火检测	Mateo Lostanlen, Felix Veith, Cristian Buc, Valentin Barriere	arxiv.org/pdf/2402.05…	null

图像理解

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-02-08	Adaptive Surface Normal Constraint for Geometric Estimation from Monocular Images	单目图像几何估计的自适应表面法线约束	Xiaoxiao Long, Yuhang Zheng, Yupeng Zheng, Beiwen Tian, Cheng Lin, Lingjie Liu, Hao Zhao, Guyue Zhou, Wenping Wang	arxiv.org/pdf/2402.05…	null
2024-02-08	Editable Scene Simulation for Autonomous Driving via Collaborative LLM-Agents	通过协作法学硕士代理进行自动驾驶的可编辑场景模拟	Yuxi Wei, Zi Wang, Yifan Lu, Chenxin Xu, Changxing Liu, Hao Zhao, Siheng Chen, Yanfeng Wang	arxiv.org/pdf/2402.05…	link

LLM

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-02-08	Examining Gender and Racial Bias in Large Vision-Language Models Using a Novel Dataset of Parallel Images	使用新颖的并行图像数据集检查大型视觉语言模型中的性别和种族偏见	Kathleen C. Fraser, Svetlana Kiritchenko	arxiv.org/pdf/2402.05…	link
2024-02-08	Real-World Robot Applications of Foundation Models: A Review	基础模型的现实世界机器人应用：回顾	Kento Kawaharazuka, Tatsuya Matsushima, Andrew Gambardella, Jiaxian Guo, Chris Paxton, Andy Zeng	arxiv.org/pdf/2402.05…	null
2024-02-08	Enhancing Zero-shot Counting via Language-guided Exemplar Learning	通过语言引导的示例学习增强零样本计数	Mingjie Wang, Jun Zhou, Yong Dai, Eric Buys, Minglun Gong	arxiv.org/pdf/2402.05…	null

Transformer

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-02-08	Memory-Efficient Vision Transformers: An Activation-Aware Mixed-Rank Compression Strategy	内存高效的视觉变压器：激活感知的混合等级压缩策略	Seyedarmin Azizi, Mahdi Nazemi, Massoud Pedram	arxiv.org/pdf/2402.06…	null
2024-02-08	Memory Consolidation Enables Long-Context Video Understanding	内存整合可实现长上下文视频理解	Ivana Balažević, Yuge Shi, Pinelopi Papalampidi, Rahma Chaabouni, Skanda Koppula, Olivier J. Hénaff	arxiv.org/pdf/2402.05…	null
2024-02-08	You Only Need One Color Space: An Efficient Network for Low-light Image Enhancement	您只需要一种色彩空间：用于低光图像增强的高效网络	Yixu Feng, Cheng Zhang, Pei Wang, Peng Wu, Qingsen Yan, Yanning Zhang	arxiv.org/pdf/2402.05…	link
2024-02-08	Binding Dynamics in Rotating Features	旋转特征中的绑定动力学	Sindy Löwe, Francesco Locatello, Max Welling	arxiv.org/pdf/2402.05…	null
2024-02-08	AttnLRP: Attention-Aware Layer-wise Relevance Propagation for Transformers	AttnLRP：Transformers 的注意力感知分层相关性传播	Reduan Achtibat, Sayed Mohammad Vakilzadeh Hatefi, Maximilian Dreyer, Aakriti Jain, Thomas Wiegand, Sebastian Lapuschkin, Wojciech Samek	arxiv.org/pdf/2402.05…	null
2024-02-08	On Convolutional Vision Transformers for Yield Prediction	用于产量预测的卷积视觉变压器	Alvin Inderka, Florian Huber, Volker Steinhage	arxiv.org/pdf/2402.05…	null
2024-02-08	MIGC: Multi-Instance Generation Controller for Text-to-Image Synthesis	MIGC：用于文本到图像合成的多实例生成控制器	Dewei Zhou, You Li, Fan Ma, Zongxin Yang, Yi Yang	arxiv.org/pdf/2402.05…	link
2024-02-08	Unleashing the Infinity Power of Geometry: A Novel Geometry-Aware Transformer (GOAT) for Whole Slide Histopathology Image Analysis	释放几何的无限力量：用于全玻片组织病理学图像分析的新型几何感知转换器 (GOAT)	Mingxin Liu, Yunzan Liu, Pengbo Xu, Jiquan Ma	arxiv.org/pdf/2402.05…	null

3D/CG

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-02-08	3D-2D Neural Nets for Phase Retrieval in Noisy Interferometric Imaging	用于噪声干涉成像中相位检索的 3D-2D 神经网络	Andrew H. Proppe, Guillaume Thekkadath, Duncan England, Philip J. Bustard, Frédéric Bouchard, Jeff S. Lundeen, Benjamin J. Sussman	arxiv.org/pdf/2402.06…	null
2024-02-08	InkSight: Offline-to-Online Handwriting Conversion by Learning to Read and Write	InkSight：通过学习读写实现离线到在线手写转换	Blagoj Mitrevski, Arina Rak, Julian Schnitzler, Chengkun Li, Andrii Maksai, Jesse Berent, Claudiu Musat	arxiv.org/pdf/2402.05…	null
2024-02-08	UAV-Rain1k: A Benchmark for Raindrop Removal from UAV Aerial Imagery	UAV-Rain1k：无人机航拍图像去除雨滴的基准	Wenhui Chang, Hongming Chen, Xin He, Xiang Chen, Liangduo Shen	arxiv.org/pdf/2402.05…	link
2024-02-08	An Optimization-based Baseline for Rigid 2D/3D Registration Applied to Spine Surgical Navigation Using CMA-ES	基于优化的刚性 2D/3D 配准基线应用于使用 CMA-ES 的脊柱手术导航	Minheng Chen, Tonglong Li, Zhirun Zhang, Youyong Kong	arxiv.org/pdf/2402.05…	null
2024-02-09	NCRF: Neural Contact Radiance Fields for Free-Viewpoint Rendering of Hand-Object Interaction	NCRF：用于手-物体交互的自由视点渲染的神经接触辐射场	Zhongqun Zhang, Jifei Song, Eduardo Pérez-Pellitero, Yiren Zhou, Hyung Jin Chang, Aleš Leonardis	arxiv.org/pdf/2402.05…	null
2024-02-08	Memory-efficient deep end-to-end posterior network (DEEPEN) for inverse problems	用于反问题的内存高效深度端到端后验网络（DEEPEN）	Jyothi Rikhab Chand, Mathews Jacob	arxiv.org/pdf/2402.05…	null

各类学习方式

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-02-08	TaE: Task-aware Expandable Representation for Long Tail Class Incremental Learning	TaE：长尾类增量学习的任务感知可扩展表示	Linjie Li, S. Liu, Zhenyu Wu, JI yang	arxiv.org/pdf/2402.05…	null
2024-02-08	FuncGrasp: Learning Object-Centric Neural Grasp Functions from Single Annotated Example Object	FuncGrasp：从单个带注释的示例对象中学习以对象为中心的神经抓取功能	Hanzhi Chen, Binbin Xu, Stefan Leutenegger	arxiv.org/pdf/2402.05…	null

其他

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-02-08	Impact on Public Health Decision Making by Utilizing Big Data Without Domain Knowledge	在没有领域知识的情况下利用大数据对公共卫生决策的影响	Miao Zhang, Salman Rahman, Vishwali Mhasawade, Rumi Chunara	arxiv.org/pdf/2402.06…	null
2024-02-08	Contrastive Approach to Prior Free Positive Unlabeled Learning	先前自由积极无标记学习的对比方法	Anish Acharya, Sujay Sanghavi	arxiv.org/pdf/2402.06…	null
2024-02-08	Hidden in Plain Sight: Undetectable Adversarial Bias Attacks on Vulnerable Patient Populations	隐藏在众目睽睽之下：对弱势患者群体的不可察觉的对抗性偏见攻击	Pranav Kulkarni, Andrew Chan, Nithya Navarathna, Skylar Chan, Paul H. Yi, Vishwa S. Parekh	arxiv.org/pdf/2402.05…	link
2024-02-08	Real-time Holistic Robot Pose Estimation with Unknown States	未知状态下的实时整体机器人姿态估计	Shikun Ban, Juling Fan, Wentao Zhu, Xiaoxuan Ma, Yu Qiao, Yizhou Wang	arxiv.org/pdf/2402.05…	link
2024-02-08	Learning pseudo-contractive denoisers for inverse problems	学习逆问题的伪收缩降噪器	Deliang Wei, Peng Chen, Fang Li	arxiv.org/pdf/2402.05…	null
2024-02-08	Extending 6D Object Pose Estimators for Stereo Vision	扩展立体视觉的 6D 物体姿态估计器	Thomas Pöllabauer, Jan Emrich, Volker Knauthe, Arjan Kuijper	arxiv.org/pdf/2402.05…	null
2024-02-08	A Concept for Reconstructing Stucco Statues from historic Sketches using synthetic Data only	仅使用合成数据从历史草图重建灰泥雕像的概念	Thomas Pöllabauer, Julius Kühn	arxiv.org/pdf/2402.05…	null
2024-02-08	Neural Graphics Primitives-based Deformable Image Registration for On-the-fly Motion Extraction	用于动态运动提取的基于神经图形基元的可变形图像配准	Xia Li, Fabian Zhang, Muheng Li, Damien Weber, Antony Lomax, Joachim Buhmann, Ye Zhang	arxiv.org/pdf/2402.05…	null