首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
论文阅读
把你拉进白名单
创建于2021-12-02
订阅专栏
本栏目旨在记录一下本人在阅读论文时的感悟,笔记,和代码复现
暂无订阅
共6篇文章
创建于2021-12-02
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
如此简单,MHA, MQA,GQA代码解析
前言 DeepSeek V3的爆火,让大家对于注意力机制的优化重新燃起了兴趣与希望,而网络上的资料也比较少,所以在本次的章节中,我将整理从MHA, 到MQA,GQA以及最新的MLA算法以及代码。
源码解读FLUX.1扩散模型
1. 简介 24年8月,stable diffusion前核心团队成员组建的黑森林实验室公布了一款文生图模型——FLUX.1, 效果惊艳四座,不仅克服了stable diffusion, SDX
DIT详解
1. 模型简介 Dit来自论文《Scalable Diffusion Models with Transformers》,是构成Sora文生视频的核心。在Stable Diffusion中,image
论文精读:《用于视频检索的多模式转换器》
1. 创新点 在传统的文字-视频检索领域丢弃了多模态信息,或者仅仅使用门控机制来处理某些维度信号。 因此提出了一种多模态Transformer,能够对视频中的不同模态进行联合编码,从而允许他们各自关注
论文精读:《TACO:用于视频-文本对齐的标记感知级联对比学习》
1. 创新点 提出了一种新的token感知级联对比学习(TACO)算法 该算法有两个创新点: token感知的对比损失,是通过考虑单词的句法类别来计算的 采用级联抽样的方法生成少量的hard nega
论文精读:《佛罗伦萨:一种新的计算机视觉基础模型》
1. 创新点 现有的视觉基础模型如CLIP(Radford et al.,2021)、Align(Jia et al.,2021)和Wu Dao 2.0(Wud)主要关注于将图像和文本表示映射到跨模式