首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
CVHub
CVHub
创建于2023-03-05
订阅专栏
专注计算机视觉领域,提供全面、多领域、有深度的前沿AI论文解读与产业级成熟解决方案!
等 64 人订阅
共252篇文章
创建于2023-03-05
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
UltraLight-VM-UNet
在医学图像分割领域中,皮肤病变分割同眼底视网膜血管分割、息肉分割算是几个非常经典的研究课题。 随着移动医疗设备的兴起,对于能够在这些设备上高效运行的轻量级模型的需求日益增长。
Mamba入局遥感图像分割 | Samba: 首个基于SSM的遥感高分图像语义分割框架
本文介绍了Samba,一种基于Mamba的高分辨率遥感图像语义分割框架,标志着Mamba在该领域的首次应用。
NeurIPS 2023 | 深入探讨 Weight Decay 的前世今生和隐藏缺陷
谈到 Weight Decay,势必大家都不陌生,因为这是每位 AIer 每天都会用的计数,但却又是几乎没人会关注的算法。
CVPR 2024 | 首个 DP + CLIP 的 Defocus 去模糊算法
全像素双核(dual-pixel, DP)传感器是一种最初被用于促进相机自动对焦的图像传感器。DP 传感器将传统的图像传感器的每个像素一分为二,因而一次拍摄能够捕获两幅带有微小基线的图像对。
CVPR 2024 | PromptKD: 基于Prompt的视觉语言模型蒸馏新方法
本文介绍了一个用于视觉-语言模型的两阶段无监督提示蒸馏框架。该框架旨在通过使用未标记的领域数据,将大型CLIP教师模型的知识转移给轻量级CLIP学生模型,通过提示模仿。
DECO:卷积结构的反击,纯卷积Query-Based检测器超越DETR
Detection Transformer(DETR)推出之后,迅速引发了目标检测领域的一股热潮,很多的后续工作也从精度和速度方面对原始的 DETR 进行了改进。
CVPR 2024 | 一种新颖的基于生成式的 OVD 检测范式:GenerateU
本文提出了一种全新的开放词汇对象检测方法,称为生成式开放对象检测(generative open-ended object detection, GenerateU),旨在解决在推理阶段的问题。
LocalMamba
近期,以 Mamba 为代表的状态空间模型(State Space Models)在诸如自然语言理解等序列建模任务中取得了显著进展。
2420年还在学YOLO和U-Net? 手把手教你如何基于Qwen-VL搭建一个多模态智能体!
操作手机电脑等图形用户界面(GUI)是人类日常生活的重要部分。 今天,由南京大学和上海AI实验室便基于这个需求提出并构建了一个基于大规模视觉语言模型(LVLM)的视觉 GUI 智能体。
LongClip: 探索长文本的CLIP模型
CLIP(Contrastive Language–Image Pre-training),这个由 OpenAI 团队开源的多模态预训练模型,它通过对比学习的方式,同时学习图像和文本的表示。
CVPR 2024 | 知识蒸馏中的Logit标准化:辅助logit-based KD算法稳定涨点
传统知识蒸馏默认学生/教师网络的温度是全局一致的,这种设置迫使学生模仿教师的logit的具体值,而非其关系,本文提出了 logit 标准化,解决了这个问题。
AI标注神器 X-AnyLabeling-v2.3.0 发布!支持YOLOv8旋转目标检测、EdgeSAM、RTMO等热门模型!
今天主要为大家详细介绍 X-AnyLabeling v2.3.0 版本近期更新的一些功能和新特性,同时也借此机会分享下这半年多下来的开源心路历程。
超越 GLIP! | RegionSpot: 识别一切区域,多模态融合的开放世界物体识别新方法
本文的主题是多模态融合和图文理解,文中提出了一种名为RegionSpot的新颖区域识别架构,旨在解决计算机视觉中的一个关键问题:理解无约束图像中的各个区域或patch的语义。
CNN 与 ViT 的完美结合 | TransXNet: 结合局部和全局注意力提供强大的归纳偏差和高效感受野
导读本文依旧从经典的 ViTs 说起,即基于 MHSA 构建远距离建模实现全局感受野的覆盖,但缺乏像 CNNs 般的归纳偏差能力。
WACV 2024 | SBCFormer: 面向端CPU设备的高效神经网络设计典范
本文的核心问题设计一个轻量化的深度神经网络在单板计算机(SBCs)上实现高准确度和快速计算的视觉任务。
微软 Azure AI 团队新作 | Florence-2: 解锁视觉新境界,万能感知引领未来!
今天为大家介绍由微软Azure AI团队最新提出的新颖视觉基础模型:Florence-2,该模型采用了一种基于prompt的统一表示方法,广泛适用于各种 CV 和 NLP。
All in One | X-AnyLabeling v2.0.0 全自动标注工具强势登场,全新功能亮相,欢迎体验升级!
大家好!今天,很荣幸地为各位小伙伴介绍全新的 X-AnyLabeling v2.0.0 版本。本次更新带来了许多实用好玩的新功能,让我们一同了解下吧!
ICCV 2023 | 克服域差异:基于事件相机的自监督预训练策略
事件相机(Event Camera)是一种新型传感器。不同于传统的RGB相机记录的是场景的像素亮度,输出稠密、低频的图像帧,事件相机记录的是像素亮度的变化,输出稀疏、高频的事件流。
ICCV 2023 | 字节跳动 PICO 智能创作团队最新XR/VR研究工作分享
在不断发展的人工智能(AI)领域中,数据一直被视为最宝贵的资源之一。数据驱动的AI正以前所未有的方式塑造着未来,尤其在XR(扩展现实)领域,其中硬件和算法快速迭代。
TPAMI 2023 | 生成式AI与图像合成综述
生成式AI作为当前人工智能领域的前沿技术,已被广泛的应用于各类视觉合成任务。随着DALL-E2,Stable Diffusion和DreamFusion的发布,AI 作画和3D合成实现了令人惊讶的效果
下一页