首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
CVHub
CVHub
创建于2023-03-05
订阅专栏
专注计算机视觉领域,提供全面、多领域、有深度的前沿AI论文解读与产业级成熟解决方案!
等 64 人订阅
共252篇文章
创建于2023-03-05
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
CMU & Argo AI | SUDS:迄今为止最大的动态NeRF
论文将神经辐射场(NeRF)扩展到动态大规模城市场景。之前的研究往往重建短时间内的单个视频剪辑(最多10秒)。
ICLR 2023 Spotlight | 提升20倍训练速度的体素神经表面重建方法
本文提出了Voxurf,一种基于体素的高效准确的神经表面重建方法。它包括了几个关键设计:两阶段框架逐步获得连贯的粗糙形状并恢复细节。
华为&上交重磅新作! | SA3D:NeRF辅助SAM,从2D分割进阶到3D分割
本文提出了SA3D,这是一种将SAM推广到使用神经辐射场(NeRF)作为结构先验进行三维物体分割的新框架。
独步潮流!如何在私有数据集上塑造GPT式大型语言模型的独特风格!
本文介绍的参数高效微调方法可以在单个 GPU 上将同一模型的微调速度提高 9 倍,且所需 GPU 内存减少了 15 倍。
复旦大学重磅发布低内存优化技术LOMO | 将大模型训练内存使用量降低到10.8%,大幅领先DeepSpeed!
大型语言模型(LLMs)在自然语言处理(NLP)领域产生了革命性的影响,但对于训练而言需要大量的GPU资源。降低LLMs训练的门槛将鼓励更多的研究人员参与,从而使学术界和社会受益。
中科院自动化所发布Fast SAM | 精度相当,速度提升50倍!!!
SAM已经成为许多高级任务(如图像分割、图像描述和图像编辑)的基础步骤。然而,其巨大的计算开销限制了其在工业场景中的广泛应用。
言简意赅 | 旷视最新研究 ChatSpot: 让多模态大语言模型“更懂你的心”!
ChatSpot是一个提升多模态大语言模型“精确指代”(亦即交互)能力的探索工作,即非拼接的、能读懂用户“自然语言”以外的指令,如鼠标/手指的点击、拖拽等指代行为的交互式多模态 LLM。
苏黎世理工 & 港科大震撼力作 HQ-SAM:SAM新秀-高质量分割一切模型
本文提出了HQ-SAM,这是第一个通过对原始SAM引入可忽略开销而实现高质量零样本分割的模型,探讨了如何在数据高效和计算经济的方式下利用和扩展类似SAM的基础分割模型。
MICCAI 2023 | 视频息肉检测算法 YONA: 速度与精度的完美结合!
结肠镜视频对于辅助临床直肠癌诊断非常重要,因为相比静态图像,结肠镜视频包含更丰富的信息。然而,与常见的固定摄像头视频不同,结肠镜视频中的摄像头移动会引起快速的画面抖动,导致现有的视频检测模型训练不稳定
英伟达最新开源 | FasterViT: 面相硬件优化的高效神经网络架构
FasterViT 被设计为一种混合网络结构,综合了 CNN 和 ViT 的优势,旨在实现高效的图像处理速度。
ICLR2023 Oral | Noise2NoiseMapping:通过噪声点云学习带符号距离函数
从3D点云中学习有符号距离函数(SDFs)是3D计算机视觉中的一个重要任务。然而,在没有真实有符号距离、点法线或干净点云的情况下,当前的方法仍然难以从噪声点云中学习SDFs。
CVPR 2023 | InternImage: 65.4 mAP,刷新 COCO 目标检测榜单记录!
研究人员提出了 InternImage,这是一种新的基于 CNN的大规模基础模型,可以为图像分类、对象检测和语义分割等多功能视觉任务提供强大的表示。
VisorGPT: 如何基于 GPT 和 AIGC 模型定制一个可控的生成模型
文将空间条件中物体的形状、位置以及它们之间的关系等性质总结为视觉先验(Visual Prior),并使用Transformer Decoder以Generative Pre-Training的方式创建
深度学习之小目标检测初探
小目标检测是计算机视觉领域中的一个极具挑战性的问题。随着深度学习和计算机视觉领域的不断发展,越来越多的应用场景需要对小目标进行准确的检测和识别。
手把手教你打榜 MICCAI 2023 最新挑战赛!(附代码实现)
本文提出了一种名为 YONA 的新框架,用于准确和快速检测结肠镜视频中的息肉。该框架通过引入前景和背景对齐模块来处理快速运动情况下的特征,同时引入跨帧对比学习模块来增强模型对息肉和肠壁的区分能力。
微软发布医学多模态大模型LLaVA-Med | 基于LLaVA的医学指令微调
单模态文本在生物医学领域的研究已经取得了显著的成果,而多模态对话人工智能则通过利用来自公共网络的数十亿个图像-文本对取得了快速进展。
CVPR 2023 | AdaAD: 通过自适应对抗蒸馏提高轻量级模型的鲁棒性
本文通过在min-max框架中最大化教师模型和学生模型之间的预测差异,提出了一个新的对抗蒸馏目标函数。
X-Anylabeling: 一款多SOTA深度学习模型集成的新一代自动标注工具
今天为掘友们介绍一款CVHub最新开源的自动图片标注工具:X-AnyLabeling,具备多个SOTA级别的深度学习模型和,同时支持多个主流的深度学习框架!
中科院一区顶刊 TCSVT 2023 | DIAL-Filters: 显著提升模糊夜视场景下的检测和分割性能!
本文主要介绍了一种用于改进夜间辅助驾驶场景分割的方法,该方法通过使用双图像自适应可学习滤波器(DIAL-Filters)来提高夜间驾驶条件下的语义分割性能。
IPMI 2023 港科大陈浩团队新作 | CTO: 重新思考边界检测在医学图像分割中的作用
本文提出了一种新颖的网络架构CTO,即Convolution, Transformer 和 Operator,通过结合卷积神经网络、视觉 Transformer 和显式边界检测操作,实现高精度性能。
下一页