CVHub

CVHub

CVHub

专注计算机视觉领域，提供全面、多领域、有深度的前沿AI论文解读与产业级成熟解决方案！

等 72 人订阅共253篇文章创建于2023-03-05

具身智能开篇

随着大模型技术的持续升温，具身智能这一前沿领域也日益受到广泛关注与热议。为此，CVHub紧跟行业步伐，特别邀请到来自企业实践一线、深谙具身智能算法的算法工程师，倾力打造“具身智能论文精读”专栏。

2年前
1.4k
点赞
评论

UltraLight-VM-UNet

在医学图像分割领域中，皮肤病变分割同眼底视网膜血管分割、息肉分割算是几个非常经典的研究课题。随着移动医疗设备的兴起，对于能够在这些设备上高效运行的轻量级模型的需求日益增长。

2年前
1.9k
1
评论

Mamba入局遥感图像分割 | Samba: 首个基于SSM的遥感高分图像语义分割框架

本文介绍了Samba，一种基于Mamba的高分辨率遥感图像语义分割框架，标志着Mamba在该领域的首次应用。

2年前
1.1k
1
评论

NeurIPS 2023 | 深入探讨 Weight Decay 的前世今生和隐藏缺陷

谈到 Weight Decay，势必大家都不陌生，因为这是每位 AIer 每天都会用的计数，但却又是几乎没人会关注的算法。

2年前
755
1
评论

CVPR 2024 | 首个 DP + CLIP 的 Defocus 去模糊算法

全像素双核(dual-pixel, DP)传感器是一种最初被用于促进相机自动对焦的图像传感器。DP 传感器将传统的图像传感器的每个像素一分为二，因而一次拍摄能够捕获两幅带有微小基线的图像对。

2年前
738
点赞
评论

CVPR 2024 | PromptKD: 基于Prompt的视觉语言模型蒸馏新方法

本文介绍了一个用于视觉-语言模型的两阶段无监督提示蒸馏框架。该框架旨在通过使用未标记的领域数据，将大型CLIP教师模型的知识转移给轻量级CLIP学生模型，通过提示模仿。

2年前
938
点赞
评论

DECO：卷积结构的反击，纯卷积Query-Based检测器超越DETR

Detection Transformer（DETR）推出之后，迅速引发了目标检测领域的一股热潮，很多的后续工作也从精度和速度方面对原始的 DETR 进行了改进。

2年前
626
点赞
评论

CVPR 2024 | 一种新颖的基于生成式的 OVD 检测范式：GenerateU

本文提出了一种全新的开放词汇对象检测方法，称为生成式开放对象检测（generative open-ended object detection, GenerateU），旨在解决在推理阶段的问题。

2年前
788
点赞
评论

近期，以 Mamba 为代表的状态空间模型（State Space Models）在诸如自然语言理解等序列建模任务中取得了显著进展。

2年前
910
点赞
评论

2420年还在学YOLO和U-Net? 手把手教你如何基于Qwen-VL搭建一个多模态智能体！

操作手机电脑等图形用户界面（GUI）是人类日常生活的重要部分。今天，由南京大学和上海AI实验室便基于这个需求提出并构建了一个基于大规模视觉语言模型（LVLM）的视觉 GUI 智能体。

2年前
933
1
评论

LongClip: 探索长文本的CLIP模型

CLIP（Contrastive Language–Image Pre-training），这个由 OpenAI 团队开源的多模态预训练模型，它通过对比学习的方式，同时学习图像和文本的表示。

2年前
1.0k
1
评论

CVPR 2024 | 知识蒸馏中的Logit标准化：辅助logit-based KD算法稳定涨点

传统知识蒸馏默认学生/教师网络的温度是全局一致的，这种设置迫使学生模仿教师的logit的具体值，而非其关系，本文提出了 logit 标准化，解决了这个问题。

2年前
1.1k
1
评论

AI标注神器 X-AnyLabeling-v2.3.0 发布！支持YOLOv8旋转目标检测、EdgeSAM、RTMO等热门模型！

今天主要为大家详细介绍 X-AnyLabeling v2.3.0 版本近期更新的一些功能和新特性，同时也借此机会分享下这半年多下来的开源心路历程。

2年前
4.5k
3
6

超越 GLIP! | RegionSpot: 识别一切区域，多模态融合的开放世界物体识别新方法

本文的主题是多模态融合和图文理解，文中提出了一种名为RegionSpot的新颖区域识别架构，旨在解决计算机视觉中的一个关键问题：理解无约束图像中的各个区域或patch的语义。

2年前
1.0k
点赞
评论

超越 GLIP! | RegionSpot: 识别一切区域，多模态融合的开放世界物体识别新方法

CNN 与 ViT 的完美结合 | TransXNet: 结合局部和全局注意力提供强大的归纳偏差和高效感受野

导读本文依旧从经典的 ViTs 说起，即基于 MHSA 构建远距离建模实现全局感受野的覆盖，但缺乏像 CNNs 般的归纳偏差能力。

2年前
1.1k
点赞
评论

CNN 与 ViT 的完美结合 | TransXNet: 结合局部和全局注意力提供强大的归纳偏差和高效感受野

WACV 2024 | SBCFormer: 面向端CPU设备的高效神经网络设计典范

本文的核心问题设计一个轻量化的深度神经网络在单板计算机（SBCs）上实现高准确度和快速计算的视觉任务。

2年前
958
点赞
评论

WACV 2024 | SBCFormer: 面向端CPU设备的高效神经网络设计典范

微软 Azure AI 团队新作 | Florence-2: 解锁视觉新境界，万能感知引领未来！

今天为大家介绍由微软Azure AI团队最新提出的新颖视觉基础模型：Florence-2，该模型采用了一种基于prompt的统一表示方法，广泛适用于各种 CV 和 NLP。

2年前
1.1k
点赞
评论

All in One | X-AnyLabeling v2.0.0 全自动标注工具强势登场，全新功能亮相，欢迎体验升级！

大家好！今天，很荣幸地为各位小伙伴介绍全新的 X-AnyLabeling v2.0.0 版本。本次更新带来了许多实用好玩的新功能，让我们一同了解下吧！

2年前
3.0k
2
评论

All in One | X-AnyLabeling v2.0.0 全自动标注工具强势登场，全新功能亮相，欢迎体验升级！

ICCV 2023 | 克服域差异：基于事件相机的自监督预训练策略

事件相机（Event Camera）是一种新型传感器。不同于传统的RGB相机记录的是场景的像素亮度，输出稠密、低频的图像帧，事件相机记录的是像素亮度的变化，输出稀疏、高频的事件流。

2年前
1.1k
点赞
评论

ICCV 2023 | 字节跳动 PICO 智能创作团队最新XR/VR研究工作分享

在不断发展的人工智能（AI）领域中，数据一直被视为最宝贵的资源之一。数据驱动的AI正以前所未有的方式塑造着未来，尤其在XR（扩展现实）领域，其中硬件和算法快速迭代。

2年前
1.9k
4
1