首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
论文阅读
把你拉进白名单
创建于2021-12-02
订阅专栏
本栏目旨在记录一下本人在阅读论文时的感悟,笔记,和代码复现
暂无订阅
共4篇文章
创建于2021-12-02
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
DIT详解
1. 模型简介 Dit来自论文《Scalable Diffusion Models with Transformers》,是构成Sora文生视频的核心。在Stable Diffusion中,image
论文精读:《用于视频检索的多模式转换器》
1. 创新点 在传统的文字-视频检索领域丢弃了多模态信息,或者仅仅使用门控机制来处理某些维度信号。 因此提出了一种多模态Transformer,能够对视频中的不同模态进行联合编码,从而允许他们各自关注
论文精读:《TACO:用于视频-文本对齐的标记感知级联对比学习》
1. 创新点 提出了一种新的token感知级联对比学习(TACO)算法 该算法有两个创新点: token感知的对比损失,是通过考虑单词的句法类别来计算的 采用级联抽样的方法生成少量的hard nega
论文精读:《佛罗伦萨:一种新的计算机视觉基础模型》
1. 创新点 现有的视觉基础模型如CLIP(Radford et al.,2021)、Align(Jia et al.,2021)和Wu Dao 2.0(Wud)主要关注于将图像和文本表示映射到跨模式