CVHub

算法研究员 | 北京字节跳动有限公司

技能：图像分类、语义/实例/全景分割、目标/显著性检测、模型剪枝/蒸馏/量化/NAS、Transformer/LLM、超分/复原/去噪/去雨/去雾、弱监督/半监督/无监督/增量学习、GNN、3D视觉；兴趣：游山玩水、写文章、分享故事。

赞

8

|

搜索文章

2023港科大新作 | 新颖注意力机制有效提升医学图像小样本语义分割精度！

本文提出了一种用于few-shot医学图像分割的交叉注意力Transformer网络CAT-Net。通过交叉掩码注意力模块实现了查询和支持特征之间的交互，增强了特征表达能力。

2年前
280
点赞
评论

《万字长文带你解读AIGC》系列之技术篇

如果您也对人工智能和计算机视觉全栈领域感兴趣，强烈推荐您关注有料、有趣、有爱的公众号『CVHub』，每日为大家带来精品原创、多领域、有深度的前沿科技论文解读及工业成熟解决方案！

2年前
1.0k
1
评论

SPM: 一种即插即用的形状先验模块，可轻松嵌入任意编解码架构，助力涨点并显著改善分割效果！

本文详细讨论了三种具有形状先验的分割模型，包括基于图谱的模型、统计形状模型和基于 UNet 的模型。

2年前
342
点赞
评论

CVPR2023 | SparseViT：一种有效处理高分辨率图像的Transformer

本文重新探讨了激活稀疏性在基于窗口的 ViTs 上的应用，并提出了一种新的方法来利用它。本文引入了稀疏感知自适应，并采用进化搜索来有效地找到最佳的逐层稀疏配置。

2年前
246
点赞
评论

Text2Room：第一个从文本生成室内三维场景的方法！

论文使用text-to-image的2D生成器来创建一个图像序列。论文的方法的核心洞察力是一个定制的视点选择，它允许创建一个具有无缝的几何图形和引人注目的纹理的3D网格。

2年前
317
点赞
评论

华中科大、百度&港大联合出品 | ByteTrackV2：一种简单且强大的 2D/3D 多目标跟踪框架，横扫多项任务SOTA！

本文提出了一个简单而统一的多目标追踪框架 ByteTrackV2，旨在解决 2D 和 3D MOT 问题。

2年前
548
点赞
评论

实习招聘 | 美团招聘视觉感知算法方向实习生

团队深耕自动驾驶领域，有国际顶尖自动驾驶企业经验（e.g., Waymo），在业内有持续影响力，欢迎关注！

2年前
233
点赞
评论

CVPR2023 | 结合二进制编码器的人脸年龄估计模型

本文提出了一种基于Delta Age AdaIN的操作来通过迁移学习获取每个年龄段的代表性结果。所提出的DAA是一种轻量级和高效的特征学习网络。

2年前
411
点赞
评论

CVPR2023 | 节省67%计算成本，高精度视频语义分割再下一城！

本文提出了一种针对压缩视频语义分割的分辨率交替框架AR-Seg，从输入分辨率的角度创新性地提高了视频分割的效率。

2年前
228
点赞
评论

CVPR 2023 | IGEV-Stereo & IGEV-MVS：双目立体匹配网络新SOTA!

本文提出了IGEV，这是一种用于立体匹配和多视角立体视觉也的深度网络架构。IGEV编码几何和上下文信息以及局部匹配细节，并迭代地对其进行索引以更新视差图。

2年前
447
点赞
评论

个人成就

优秀创作者

文章被点赞 265

文章被阅读 288,185

掘力值 9,240

加入于

2023-01-13