[分享][每日更新][2024.02.12][CV_arxiv_papers]

2024-02-13 226 阅读6分钟

[UPDATED!] 2024-02-12 (Publish Time)

生成模型

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-02-12	Trustworthy SR: Resolving Ambiguity in Image Super-resolution via Diffusion Models and Human Feedback	值得信赖的 SR：通过扩散模型和人类反馈解决图像超分辨率中的模糊性	Cansu Korkmaz, Ege Cirakman, A. Murat Tekalp, Zafer Dogan	arxiv.org/pdf/2402.07…	null
2024-02-12	Re-DiffiNet: Modeling discrepancies in tumor segmentation using diffusion	Re-DiffiNet：使用扩散对肿瘤分割中的差异进行建模	Tianyi Ren, Abhishek Sharma, Juampablo Heras Rivera, Harshitha Rebala, Ethan Honey, Agamdeep Chopra, Mehmet Kurt	arxiv.org/pdf/2402.07…	null

多模态

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-02-12	MODIPHY: Multimodal Obscured Detection for IoT using PHantom Convolution-Enabled Faster YOLO	MODIPHY：使用支持 PHantom 卷积的更快 YOLO 进行物联网多模态模糊检测	Shubhabrata Mukherjee, Cory Beard, Zhu Li	arxiv.org/pdf/2402.07…	link
2024-02-12	Asking Multimodal Clarifying Questions in Mixed-Initiative Conversational Search	在混合主动对话式搜索中提出多模式澄清问题	Yifei Yuan, Clemencia Siro, Mohammad Aliannejadi, Maarten de Rijke, Wai Lam	arxiv.org/pdf/2402.07…	null
2024-02-12	Exploring Perceptual Limitation of Multimodal Large Language Models	探索多模态大语言模型的感知局限性	Jiarui Zhang, Jinyi Hu, Mahyar Khayatkhoei, Filip Ilievski, Maosong Sun	arxiv.org/pdf/2402.07…	link

模型压缩/优化

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-02-12	Towards Meta-Pruning via Optimal Transport	通过最佳传输实现元剪枝	Alexander Theus, Olin Geimer, Friedrich Wicke, Thomas Hofmann, Sotiris Anagnostidis, Sidak Pal Singh	arxiv.org/pdf/2402.07…	link
2024-02-12	Make it more specific: A novel uncertainty based airway segmentation application on 3D U-Net and its variants	使其更具体：基于 3D U-Net 的新型不确定性气道分割应用及其变体	Shiyi Wang, Yang Nan, Felder Federico N, Sheng Zhang, Walsh Simon L F, Guang Yang	arxiv.org/pdf/2402.07…	null

分类/检测/识别/分割/...

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-02-12	Detection of Spider Mites on Labrador Beans through Machine Learning Approaches Using Custom Datasets	使用自定义数据集通过机器学习方法检测拉布拉多豆上的蜘蛛螨	Violet Liu, Jason Chen, Ans Qureshi, Mahla Nejati	arxiv.org/pdf/2402.07…	null
2024-02-12	A Benchmark Grocery Dataset of Realworld Point Clouds From Single View	来自单一视图的现实世界点云的基准杂货数据集	Shivanand Venkanna Sheshappanavar, Tejas Anvekar, Shivanand Kundargi, Yufan Wang, Chandra Kambhamettu	arxiv.org/pdf/2402.07…	null
2024-02-12	PBADet: A One-Stage Anchor-Free Approach for Part-Body Association	PBADet：一种用于部分身体关联的单阶段无锚方法	Zhongpai Gao, Huayi Zhou, Abhishek Sharma, Meng Zheng, Benjamin Planche, Terrence Chen, Ziyan Wu	arxiv.org/pdf/2402.07…	null
2024-02-12	Minimally Interactive Segmentation of Soft-Tissue Tumors on CT and MRI using Deep Learning	使用深度学习在 CT 和 MRI 上对软组织肿瘤进行最小交互分割	Douwe J. Spaanderman, Martijn P. A. Starmans, Gonnie C. M. van Erp, David F. Hanff, Judith H. Sluijter, Anne-Rose W. Schut, Geert J. L. H. van Leenders, Cornelis Verhoef, Dirk J. Grunhagen, Wiro J. Niessen, et.al.	arxiv.org/pdf/2402.07…	null
2024-02-12	Signed Distance Field based Segmentation and Statistical Shape Modelling of the Left Atrial Appendage	基于符号距离场的左心耳分割和统计形状建模	Kristine Aavild Juhl, Jakob Slipsager, Ole de Backer, Klaus Kofoed, Oscar Camara, Rasmus Paulsen	arxiv.org/pdf/2402.07…	null
2024-02-12	AYDIV: Adaptable Yielding 3D Object Detection via Integrated Contextual Vision Transformer	AYDIV：通过集成上下文视觉转换器进行适应性强的 3D 物体检测	Tanmoy Dam, Sanjay Bhargav Dharavath, Sameer Alam, Nimrod Lilith, Supriyo Chakraborty, Mir Feroskhan	arxiv.org/pdf/2402.07…	link
2024-02-12	GBOT: Graph-Based 3D Object Tracking for Augmented Reality-Assisted Assembly Guidance	GBOT：基于图形的 3D 对象跟踪，用于增强现实辅助装配指导	Shiyu Li, Hannah Schieber, Niklas Corell, Bernhard Egger, Julian Kreimeier, Daniel Roth	arxiv.org/pdf/2402.07…	null
2024-02-12	A Flow-based Credibility Metric for Safety-critical Pedestrian Detection	用于安全关键行人检测的基于流的可信度度量	Maria Lyssenko, Christoph Gladisch, Christian Heinzemann, Matthias Woehrle, Rudolph Triebel	arxiv.org/pdf/2402.07…	null
2024-02-12	Collaborative Semantic Occupancy Prediction with Hybrid Feature Fusion in Connected Automated Vehicles	联网自动驾驶车辆中具有混合特征融合的协作语义占用预测	Rui Song, Chenwei Liang, Hu Cao, Zhiran Yan, Walter Zimmer, Markus Gross, Andreas Festag, Alois Knoll	arxiv.org/pdf/2402.07…	null
2024-02-12	Complete Instances Mining for Weakly Supervised Instance Segmentation	弱监督实例分割的完整实例挖掘	Zecheng Li, Zening Zeng, Yuqi Liang, Jin-Gang Yu	arxiv.org/pdf/2402.07…	link
2024-02-12	Sheet Music Transformer: End-To-End Optical Music Recognition Beyond Monophonic Transcription	Sheet Music Transformer：超越单音转录的端到端光学音乐识别	Antonio Ríos-Vila, Jorge Calvo-Zaragoza, Thierry Paquet	arxiv.org/pdf/2402.07…	link
2024-02-12	ClusterTabNet: Supervised clustering method for table detection and table structure recognition	ClusterTabNet：用于表格检测和表格结构识别的监督聚类方法	Marek Polewczyk, Marco Spinaci	arxiv.org/pdf/2402.07…	null
2024-02-12	TriAug: Out-of-Distribution Detection for Robust Classification of Imbalanced Breast Lesion in Ultrasound	TriAug：超声中不平衡乳腺病变稳健分类的分布外检测	Yinyu Ye, Shijing Chen, Dong Ni, Ruobing Huang	arxiv.org/pdf/2402.07…	null
2024-02-12	An Empirical Study Into What Matters for Calibrating Vision-Language Models	关于校准视觉语言模型的重要因素的实证研究	Weijie Tu, Weijian Deng, Dylan Campbell, Stephen Gould, Tom Gedeon	arxiv.org/pdf/2402.07…	null
2024-02-12	Context-aware Multi-Model Object Detection for Diversely Heterogeneous Compute Systems	适用于不同异构计算系统的上下文感知多模型对象检测	Justin Davis, Mehmet E. Belviranli	arxiv.org/pdf/2402.07…	null
2024-02-12	A Closer Look at the Robustness of Contrastive Language-Image Pre-Training (CLIP)	仔细观察对比语言图像预训练 (CLIP) 的鲁棒性	Weijie Tu, Weijian Deng, Tom Gedeon	arxiv.org/pdf/2402.07…	null
2024-02-12	Unsupervised Discovery of Object-Centric Neural Fields	以对象为中心的神经场的无监督发现	Rundong Luo, Hong-Xing Yu, Jiajun Wu	arxiv.org/pdf/2402.07…	null
2024-02-12	Exploring Saliency Bias in Manipulation Detection	探索操纵检测中的显着性偏差	Joshua Krinsky, Alan Bettis, Qiuyu Tang, Daniel Moreira, Aparna Bharati	arxiv.org/pdf/2402.07…	null

Transformer

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-02-12	Task-conditioned adaptation of visual features in multi-task policy learning	多任务政策学习中视觉特征的任务条件适应	Pierre Marza, Laetitia Matignon, Olivier Simonin, Christian Wolf	arxiv.org/pdf/2402.07…	null
2024-02-12	SelfSwapper: Self-Supervised Face Swapping via Shape Agnostic Masked AutoEncoder	SelfSwapper：通过形状不可知的屏蔽自动编码器进行自我监督的面部交换	Jaeseong Lee, Junha Hyung, Sohyun Jeong, Jaegul Choo	arxiv.org/pdf/2402.07…	null

各类学习方式

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-02-12	PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs	PIVOT：迭代视觉提示为 VLM 引出可操作的知识	Soroush Nasiriany, Fei Xia, Wenhao Yu, Ted Xiao, Jacky Liang, Ishita Dasgupta, Annie Xie, Danny Driess, Ayzaan Wahid, Zhuo Xu, et.al.	arxiv.org/pdf/2402.07…	null
2024-02-12	Real-World Atmospheric Turbulence Correction via Domain Adaptation	通过域适应进行真实大气湍流校正	Xijun Wang, Santiago López-Tapia, Aggelos K. Katsaggelos	arxiv.org/pdf/2402.07…	null

其他

Publish Date	Title	Title_CN	Authors	PDF	Code
2024-02-12	Wavefront Randomization Improves Deconvolution	波前随机化改进了反卷积	Amit Kohli, Anastasios N. Angelopoulos, Laura Waller	arxiv.org/pdf/2402.07…	null
2024-02-12	Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models	Prismatic VLM：研究视觉条件语言模型的设计空间	Siddharth Karamcheti, Suraj Nair, Ashwin Balakrishna, Percy Liang, Thomas Kollar, Dorsa Sadigh	arxiv.org/pdf/2402.07…	null
2024-02-12	Contrastive Multiple Instance Learning for Weakly Supervised Person ReID	弱监督行人再识别的对比多实例学习	Jacob Tyo, Zachary C. Lipton	arxiv.org/pdf/2402.07…	null
2024-02-12	Compressive Recovery of Signals Defined on Perturbed Graphs	扰动图上定义的信号的压缩恢复	Sabyasachi Ghosh, Ajit Rajwade	arxiv.org/pdf/2402.07…	null
2024-02-12	Morse sequences	莫尔斯序列	Gilles Bertrand	arxiv.org/pdf/2402.07…	null
2024-02-12	Novel definition and quantitative analysis of branch structure with topological data analysis	利用拓扑数据分析对分支结构进行新颖的定义和定量分析	Haruhisa Oda, Mayuko Kida, Yoichi Nakata, Hiroki Kurihara	arxiv.org/pdf/2402.07…	null