首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
CVHub
CVHub
创建于2023-03-05
订阅专栏
专注计算机视觉领域,提供全面、多领域、有深度的前沿AI论文解读与产业级成熟解决方案!
等 64 人订阅
共252篇文章
创建于2023-03-05
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
R2AU-Net: 基于循环残差注意力和半监督学习范式的道路裂缝分割算法
从图片中识别道路破损程度是道路养护的重要日常工作,随着人工智能领域的兴起,深度学习技术在道路基础设施的自动视觉检查中起着至关重要的作用。
Skip-Attention:一种能显著降低Transformer计算量的模型轻量化方法
我们在图像分类和ImageNet-1K上的自我监督学习、ADE20K上的语义分割、SIDD上的图像去噪以及DAVIS上的视频去噪中展示了我们方法的有效性。
为什么你的手机后置摄像头越来越丑?ECCV2022这篇论文告诉你
光学防抖镜头在现在很常见,但在相机系统中想要通过多个传感器融合信息时,存在姿态估计问题。这限制了我们从单个快照中估计高质量深度地图的能力。
如何用YOLOv5玩转半监督(附源码实现)
今天为大家带来一篇全新的 SSDA-YOLO, 即基于半监督域自适应的 YOLO 方法,通过将最火爆的单阶段目标检测器 YOLO。
高效神经网络架构的正确打开方式! | EMO:结合 CNN 和 Transformer
本文重新思考了 MobileNetv2 中高效的倒残差模块 Inverted Residual Block 和 ViT 中的有效 Transformer 的本质统一,归纳抽象了 MetaMobile。
超越DALL·E!| OpenAI 年度最新力作 GLIDE:新生代文本引导扩散模型
扩散模型最近被证明可以生成高质量的合成图像,尤其是当与引导技术结合使用以牺牲多样性来换取保真度时。 本文探索了文本条件图像合成问题的扩散模型,并比较了两种不同的指导策略。
一览无余!| BMEC:基于形状感知的红细胞细粒度分类
骨髓红细胞的精细分类和计数对于评估健康状况和制定白血病或血液病的治疗方案至关重要。 由于不同类型的红细胞之间存在细微的视觉差异,因此将现有的基于图像深度学习模型应用于细粒度的红细胞分类具有挑战性。
为什么好多研究生都不愿意继续读博士了?
现如今研究生扩招愈发严重,这导致了多次考研成功率持续下降。近年来,我国研究生考试报名人数也呈现了持续增长的趋势。
ConvNeXt-V2:当 MAE 遇见 ConvNeXt 会碰撞出怎样的火花?
受掩码自编码机制的启发,本文在 ConvNeXt 的架构基础上延伸出了一个完全卷积掩码自编码器框架——ConvNeXt V2。
卷麻了!| DAE-Former:高效双重注意力引导的Transformer网络称霸医学图像分割任务
本文提出了一种新颖的类 U-Net 分层纯 Transformer —— DAE-Former,它在全特征维度上同时利用空间和通道注意力。该方法通过包含双重注意力来丰富表示空间。
NeuraIPS 2022 | 最新类别感知对抗Transformer分割网络CASTformer
本文主要还是围绕 Transformer 在医学图像分割领域的应用,方法都是比较常规的,对于需要发论文找 Idea 的同学建议可以多看看这些文章,比较适合入门级发表。
FlexiViT: 谷歌手把手教你如何灵活切片
`ViT` 是一种通过将图像切割成一个个小方块(`patch`)将图像转换为序列从而输入到`Transformer`网络进行训练和推理的一种神经网络架构。
EfficientFormerV2: Transformer家族中的MobileNet
Introduction 随着 ViT 的出现,Transformer 模型在计算机视觉领域遍地开花,一层激起一层浪。虽然精度很高,但被人广为诟病的依旧是它的效率问题。
基于 DETR 的开放世界目标检测
开放世界目标检测其实是一个相对来说比较少人关注的领域,其旨在不限定特定目标类别的情况下,对图像中的所有目标进行检测。
InstructPix2Pix: 一种无需微调新的快速图像编辑方法
本文提出了一种新的图像编辑方法,它可以通过语言指导快速编辑图像。为了获得这个问题的训练数据,作者结合了两个大型预训练模型的知识—语言模型`和`文本到图像模型生成了大量的图像编辑示例数据集。
SINE: 一种基于扩散模型的单图像编辑解决方案
与其他方法相比,本文方法对图像具有更好的几何理解,因此除了风格转移外,还可以对图像进行复杂的编辑 。
一文深度剖析扩散模型究竟学到了什么?
稳定扩散模型的关键特征之一是它能够复制训练数据。这意味着它能够通过拼凑它从训练数据中记住的前景和背景对象来创建新图像。这使得模型能够生成与训练数据具有相似视觉风格的图像,同时仍然保持高水平的原创性和创
一文回顾深度学习黄金十年
深度学习已经成为人工智能领域的一个重要研究方向,并在计算机视觉、自然语言处理和推荐系统等领域取得了巨大的进展。
一劳永逸—MIT韩松团队开源神经网络的高效部署
本文为大家介绍一篇神经网络压缩方面相关的经典论文,由MIT 韩松团队发表于 ICLR 2020 的论文。
CVHub手把手帮你榨干GPU的显存
Out Of Memory, 一个炼丹师们熟悉得不能再熟悉的异常,其解决方法也很简单,减少输入图像的尺寸或者Batch Size就好了。
下一页