CVHub

CVHub

CVHub

专注计算机视觉领域，提供全面、多领域、有深度的前沿AI论文解读与产业级成熟解决方案！

等 72 人订阅共253篇文章创建于2023-03-05

2023港科大新作 | 新颖注意力机制有效提升医学图像小样本语义分割精度！

本文提出了一种用于few-shot医学图像分割的交叉注意力Transformer网络CAT-Net。通过交叉掩码注意力模块实现了查询和支持特征之间的交互，增强了特征表达能力。

3年前
306
点赞
评论

《万字长文带你解读AIGC》系列之技术篇

如果您也对人工智能和计算机视觉全栈领域感兴趣，强烈推荐您关注有料、有趣、有爱的公众号『CVHub』，每日为大家带来精品原创、多领域、有深度的前沿科技论文解读及工业成熟解决方案！

3年前
1.1k
1
评论

SPM: 一种即插即用的形状先验模块，可轻松嵌入任意编解码架构，助力涨点并显著改善分割效果！

本文详细讨论了三种具有形状先验的分割模型，包括基于图谱的模型、统计形状模型和基于 UNet 的模型。

3年前
371
点赞
评论

CVPR2023 | SparseViT：一种有效处理高分辨率图像的Transformer

本文重新探讨了激活稀疏性在基于窗口的 ViTs 上的应用，并提出了一种新的方法来利用它。本文引入了稀疏感知自适应，并采用进化搜索来有效地找到最佳的逐层稀疏配置。

3年前
293
点赞
评论

Text2Room：第一个从文本生成室内三维场景的方法！

论文使用text-to-image的2D生成器来创建一个图像序列。论文的方法的核心洞察力是一个定制的视点选择，它允许创建一个具有无缝的几何图形和引人注目的纹理的3D网格。

3年前
350
点赞
评论

华中科大、百度&港大联合出品 | ByteTrackV2：一种简单且强大的 2D/3D 多目标跟踪框架，横扫多项任务SOTA！

本文提出了一个简单而统一的多目标追踪框架 ByteTrackV2，旨在解决 2D 和 3D MOT 问题。

3年前
650
点赞
评论

CVPR2023 | 结合二进制编码器的人脸年龄估计模型

本文提出了一种基于Delta Age AdaIN的操作来通过迁移学习获取每个年龄段的代表性结果。所提出的DAA是一种轻量级和高效的特征学习网络。

3年前
477
点赞
评论

CVPR2023 | 节省67%计算成本，高精度视频语义分割再下一城！

本文提出了一种针对压缩视频语义分割的分辨率交替框架AR-Seg，从输入分辨率的角度创新性地提高了视频分割的效率。

3年前
261
点赞
评论

CVPR 2023 | IGEV-Stereo & IGEV-MVS：双目立体匹配网络新SOTA!

本文提出了IGEV，这是一种用于立体匹配和多视角立体视觉也的深度网络架构。IGEV编码几何和上下文信息以及局部匹配细节，并迭代地对其进行索引以更新视差图。

3年前
532
点赞
评论

中科大刘淇教授团队CVPR'2023作品 | 基于因果启发的后门攻击防御

受因果推断视角的启发，本文提出了Causality-inspired Backdoor Defense, CBD来学习去混淆表示以进行可靠的分类。

3年前
754
点赞
评论

大连理工卢湖川团队TMI顶刊新作 | M^2SNet: 新颖多尺度模块 + 智能损失函数 = 通用图像分割SOTA网络

本文重新思考以前的加法或串联方法，并基于所提出的层内多尺度减法模块，以金字塔的方式聚合相邻层来提取低阶和高阶跨级互补信息，再结合级别特定信息增强多尺度特征表示。

3年前
350
点赞
1

即插即用! | 苹果推出新型网络架构 FastViT: 又快又强又稳，端侧一键部署毫无压力！

本文提出了一种通用的混合视觉转换器，它在多种计算结构上非常高效，包括移动设备和桌面级 GPU。通过结构重参数化，所提模型FastViT显著降低了内存访问成本，尤其是在高分辨率下提速明显。

3年前
657
1
评论

《万字长文带你解读AIGC》系列之入门篇

随着ChatGPT的病毒式传播，生成式人工智能因其分析和创造文本、图像、视频以及其他方面的出众能力而俨然成为当下最火热的投资赛道

3年前
1.9k
3
评论

CVPR'2023 Highlight | Point-NN: 即插即用，无需训练的非参数点云分析网络！

论文重新讨论了现有三维模型中的不可学习组件，并提出了 Point-NN，一个用于三维点云分析的纯非参数网络。没有任何参数或训练， Point-NN在各种三维任务上取得了良好的准确性。

3年前
622
点赞
评论

CVPR'2023 | MP-Former: 精度高&收敛快-Mask2Former全能图像分割的进阶之路

本文提出了一个新的网络MP-Former，主要由多层掩模驱动训练、点噪声和标签引导训练等关键部分组成。实验结果表明，作者提出的训练方法有效地缓解了邻层预测不一致性问题。

3年前
1.5k
点赞
评论

CVPR‘2023 | Lite-Mono: 一种新的轻量级自监督单目深度估计方

本文提出了一种新的轻量级单目自监督单目深度估计方法。设计了一种混合的CNN和Transformer架构来建模多尺度增强的局部特征和全局上下文信息。

3年前
1.0k
点赞
评论

AutoGPT 简介、安装与使用

Auto GPT 是一款人工智能应用程序，可以帮助用户自动化和优化业务流程，生成测试用例，调试代码，甚至还能产生新的业务创意。

3年前
7.5k
10
7

AutoGPT 简介、安装与使用

CVPR'2023 | Cross-modal Adaptation: 基于 CLIP 的微调新范式

本文提出了一种简单而有效的基于**多模态预训练模型CLIP的小样本微调算法cross-modal adaptation，通过将跨模态信息作为训练样本加入交叉熵损失，实现SOTA性能。

3年前
1.3k
1
评论

CVPR'2023 | Cross-modal Adaptation: 基于 CLIP 的微调新范式

卷麻了! nnUNet 研究团队重磅新作 | MedNeXt: 新一代分割架构之王，刷新多项榜单记录！

本文提出了一种具备高度可扩展性的类ConvNeXt的 3D 分割架构，其在有限的医学图像数据集上优于其它 7 个顶流方法，当中就包含了非常强的nnUNet。

3年前
1.4k
1
评论

清华&天津大学新作 | SurroundOcc: 面向自动驾驶场景的纯视觉 3D 语义占据预测 (已开源)

传统的 3D 场景理解方法大多数都集中在 3D 目标检测上，难以描述任意形状和无限类别的真实世界物体。本文提出的 SurroundOcc 方法可以更全面地感知 3D 场景。

3年前
602
1
评论