首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
CVHub
CVHub
创建于2023-03-05
订阅专栏
专注计算机视觉领域,提供全面、多领域、有深度的前沿AI论文解读与产业级成熟解决方案!
等 64 人订阅
共252篇文章
创建于2023-03-05
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
CVPR2023 Highlight | SDM-UniPS:任意光照、任意模型的通用光度立体测量
Photometric Stereo(光度立体)是一种计算机视觉技术,用于从多个光照条件下的图像中恢复物体表面的三维形状。它基于光照在不同角度下对物体表面产生不同影响的原理。
阿里达摩院开源大型端到端语音识别工具包FunASR | 弥合学术与工业应用之间的差距
本文介绍了一个开源语音识别工具包FunASR,旨在弥合学术研究和工业应用之间的差距。FunASR提供了在大规模工业语料库上训练的模型,并能够将其部署到应用程序中。
CVPR2023 最佳论文候选 | 使用最大团约束进行点云配准
在计算机视觉中,三维点云配准(PCR)是寻找最佳位姿以对齐一对点云的基本问题。本文提出了一种基于最大团(maximal cliques,MAC)的三维配准方法。
南大王利民团队新作 | MixFormerV2: 首个基于Transformer并在CPU设备实时运行的目标跟踪器!
本文主要介绍了一种基于Transformer的目标跟踪框架。传统的三阶段模型范式,即特征提取、信息交互和位置估计。这些方法大都采用了更统一的单流模型结构来同时进行特征提取和交互。
沈春华团队新作 | Matcher: 颠覆图像理解,释放视觉任务的无限潜力!
本文介绍了一种名为Matcher的方法,它通过集成一个多用途特征提取模型和一个无类别限制的分割模型,能够用一次输入对任何物体进行分割。
CVPR 2023 | 即插即用的注意力模块 HAT: 激活更多有用的像素助力low-level任务显著涨点!
本文提出了一种名为Hybrid Attention Transformer (HAT)的方法,旨在通过结合深度学习技术和注意力机制来改进图像超分辨率任务。
MICCAI 2023 | SCP-Net: 基于一致性学习的半监督医学图像分割方法
本文介绍了一种用于半监督医学图像分割的新方法。在医学图像分割中,由于标注数据有限而未标注数据丰富,一致性学习在有效利用有限标注数据的同时,利用未标注数据起到了重要作用。
ZipIt! 无需训练合并不同任务的模型
典型的深度视觉识别模型能够完成它们训练时的单一任务。在本文中,论文解决了将完全不同的、有着不同初始化的、各自解决不同任务的模型合并成一个多任务模型这个极其困难的问题,而不需要进行任何额外的训练。
CVPR 2023 | 基于内部离散化的单目深度估计
单目深度估计是3D场景理解和下游应用的基础。然而,即使在监督设置下,由于缺乏完整的几何约束,这仍然具有挑战性和不适定性。
即插即用系列 | Meta 新作 MMViT: 基于交叉注意力机制的多尺度和多视角编码神经网络架构
本文介绍了一种名为Multiscale Multiview Vision Transformers, MMViT的模型,它将多尺度特征图和多视角编码引入Transformer模型。
ICML 2023 | 究竟MAE与对比学习怎样结合才是最优的?ReCon来告诉你答案
本文介绍一下在 3D 表征学习上的新工作,ReCon: Contrast with Reconstruct,通过生成式学习指导对比学习实现高效的3D表征。
ICLR 2023 | ACT: 2D视觉或语言Foundation Model可以帮助3D表征学习吗?
本文提出ACT,将跨模式教师训练为自编码器,利用经过2D图像或自然语言预训练的基础Transformers作为跨模态教师,拥有深厚的知识和强大的表达能力。
华人团队开源指令调优的InstructBLIP多模态大模型 | 横扫多项SOTA,看图&推理&问答&对话样样通!
本文提出了一个名为InstructBLIP的视觉语言指令调整框架,它基于预训练的BLIP-2模型,对视觉语言指令进行调整。虽然视觉语言预训练已经得到了广泛的研究,但视觉语言指令调整仍相对较少探索
CVPR 2023 | X-Decoder: 下一代通用视觉系统设计范式
一图胜千言。X-Decoder 经过预训练以后,仅使用同一套参数便可以处理各种图像分割和视觉-语言任务,并且能够处理更复杂的组合任务,例如引用字幕和图像编辑。
上交&微软 Make-it-3D:diffusion+NeRF从单张图像生成高保真的三维物体!
人类具有一种与生俱来的能力,可以轻松地想象3D几何和虚构出从不同角度看物体的外观,这基于他们对世界的先验知识。 在本文中,研究者的目标是实现类似的目标。
CVPR 2023 | 港中文联合微软研究院推出基于级联分组注意力模块的全新实时网络架构模型 EfficientViT
本文介绍了一种名为EfficientViT的高效视觉Transformer模型,旨在解决传统Vision Transformer模型在计算成本方面存在的问题,使其适用于实时应用。
即插即用系列 | 阿里最新开源新一代通用神经网络架构: UniNeXt
本文集中探讨了计算机视觉任务中的通用架构问题。最近的一些研究集中于通过精心设计的空间令牌混合器(Spatial Token Mixer, STM)来提高性能。
经典回顾 | 达摩院细粒度分类方法 SoftTriple Loss 之 ICCV 高引论文深入解读
SoftTriple Loss 是在图像细粒度分类领域提出了新型度量学习方法,该方法可以被广泛应用于各种搜索、识别等领域中,目前谷歌学术引用 240+,相对高引。
CVHub 精选文章年中汇总
欢迎来到CVHub技术文章年中总结专区!本篇文章将为您呈现CVHub平台上的一系列优质技术文章,这些文章包含了各种计算机视觉相关的主题,从科普软文、算法原理到工程实战等。
南洋理工开源海外中文大语言模型Panda LLM | 探索数据因素和训练策略如何影响大模型性能表现
本项目以LLaMA为基础模型,采用两阶段训练方法,首先在五大中文语料进行训练微调,其次在少量但多样数据上进行指令微调,开发了中文大语言模型Panda LLM。
下一页