论文阅读

论文阅读

论文阅读

本栏目旨在记录一下本人在阅读论文时的感悟，笔记，和代码复现

暂无订阅共6篇文章创建于2021-12-02

如此简单，MHA, MQA,GQA代码解析

前言 DeepSeek V3的爆火，让大家对于注意力机制的优化重新燃起了兴趣与希望，而网络上的资料也比较少，所以在本次的章节中，我将整理从MHA, 到MQA，GQA以及最新的MLA算法以及代码。

1月前
32
点赞
评论

如此简单，MHA, MQA,GQA代码解析

源码解读FLUX.1扩散模型

1. 简介 24年8月，stable diffusion前核心团队成员组建的黑森林实验室公布了一款文生图模型——FLUX.1, 效果惊艳四座，不仅克服了stable diffusion, SDX

1月前
30
点赞
评论

1. 模型简介 Dit来自论文《Scalable Diffusion Models with Transformers》，是构成Sora文生视频的核心。在Stable Diffusion中，image

1年前
1.1k
点赞
评论

论文精读：《用于视频检索的多模式转换器》

1. 创新点在传统的文字-视频检索领域丢弃了多模态信息，或者仅仅使用门控机制来处理某些维度信号。因此提出了一种多模态Transformer，能够对视频中的不同模态进行联合编码，从而允许他们各自关注

4年前
655
1
评论

论文精读:《TACO：用于视频-文本对齐的标记感知级联对比学习》

1. 创新点提出了一种新的token感知级联对比学习（TACO）算法该算法有两个创新点： token感知的对比损失，是通过考虑单词的句法类别来计算的采用级联抽样的方法生成少量的hard nega

4年前
1.8k
2
评论

论文精读：《佛罗伦萨：一种新的计算机视觉基础模型》

1. 创新点现有的视觉基础模型如CLIP(Radford et al.，2021)、Align(Jia et al.，2021)和Wu Dao 2.0(Wud)主要关注于将图像和文本表示映射到跨模式

4年前
1.3k
1
评论