首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
CVHub
掘友等级
算法研究员
|
北京字节跳动有限公司
技能:图像分类、语义/实例/全景分割、目标/显著性检测、模型剪枝/蒸馏/量化/NAS、Transformer/LLM、超分/复原/去噪/去雨/去雾、弱监督/半监督/无监督/增量学习、GNN、3D视觉; 兴趣:游山玩水、写文章、分享故事。
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
8
文章 8
沸点 0
赞
8
返回
|
搜索文章
最新
热门
CVPR 2023 | 基于内部离散化的单目深度估计
单目深度估计是3D场景理解和下游应用的基础。然而,即使在监督设置下,由于缺乏完整的几何约束,这仍然具有挑战性和不适定性。
即插即用系列 | Meta 新作 MMViT: 基于交叉注意力机制的多尺度和多视角编码神经网络架构
本文介绍了一种名为Multiscale Multiview Vision Transformers, MMViT的模型,它将多尺度特征图和多视角编码引入Transformer模型。
ICML 2023 | 究竟MAE与对比学习怎样结合才是最优的?ReCon来告诉你答案
本文介绍一下在 3D 表征学习上的新工作,ReCon: Contrast with Reconstruct,通过生成式学习指导对比学习实现高效的3D表征。
ICLR 2023 | ACT: 2D视觉或语言Foundation Model可以帮助3D表征学习吗?
本文提出ACT,将跨模式教师训练为自编码器,利用经过2D图像或自然语言预训练的基础Transformers作为跨模态教师,拥有深厚的知识和强大的表达能力。
华人团队开源指令调优的InstructBLIP多模态大模型 | 横扫多项SOTA,看图&推理&问答&对话样样通!
本文提出了一个名为InstructBLIP的视觉语言指令调整框架,它基于预训练的BLIP-2模型,对视觉语言指令进行调整。虽然视觉语言预训练已经得到了广泛的研究,但视觉语言指令调整仍相对较少探索
CVPR 2023 | X-Decoder: 下一代通用视觉系统设计范式
一图胜千言。X-Decoder 经过预训练以后,仅使用同一套参数便可以处理各种图像分割和视觉-语言任务,并且能够处理更复杂的组合任务,例如引用字幕和图像编辑。
上交&微软 Make-it-3D:diffusion+NeRF从单张图像生成高保真的三维物体!
人类具有一种与生俱来的能力,可以轻松地想象3D几何和虚构出从不同角度看物体的外观,这基于他们对世界的先验知识。 在本文中,研究者的目标是实现类似的目标。
CVPR 2023 | 港中文联合微软研究院推出基于级联分组注意力模块的全新实时网络架构模型 EfficientViT
本文介绍了一种名为EfficientViT的高效视觉Transformer模型,旨在解决传统Vision Transformer模型在计算成本方面存在的问题,使其适用于实时应用。
即插即用系列 | 阿里最新开源新一代通用神经网络架构: UniNeXt
本文集中探讨了计算机视觉任务中的通用架构问题。最近的一些研究集中于通过精心设计的空间令牌混合器(Spatial Token Mixer, STM)来提高性能。
经典回顾 | 达摩院细粒度分类方法 SoftTriple Loss 之 ICCV 高引论文深入解读
SoftTriple Loss 是在图像细粒度分类领域提出了新型度量学习方法,该方法可以被广泛应用于各种搜索、识别等领域中,目前谷歌学术引用 240+,相对高引。
下一页
个人成就
优秀创作者
文章被点赞
264
文章被阅读
279,759
掘力值
9,220
关注了
5
关注者
311
收藏集
0
关注标签
0
加入于
2023-01-13