多模态论文解读

多模态论文解读

多模态论文解读

多模态论文解读

等 2 人订阅共10篇文章创建于2024-12-28

多模态论文笔记——U-ViT

本文详细介绍U-ViT的模型架构和实验细节，虽然没有后续的DiT在AIGC领域火爆，但为后来的研究奠定了基础，但其开创性的探索值得学习。

1年前
322
点赞
评论

多模态论文笔记——Coca

本文详细介绍多模态模型Coca，在DALL·E 3中使用其作为captioner基准模型的原因和优势。

1年前
484
点赞
评论

多模态论文笔记——CogVLM和CogVLM2

本文详细介绍多模态模型的LoRA版本——CogVLM和CogVLM2。在SD 3中使用其作为captioner基准模型的原因和优势。

1年前
264
点赞
评论

多模态论文笔记——CogVLM和CogVLM2

多模态论文笔记——LLaVA

本文详细介绍在aigc火热的多模态模型：LLaVA。处理包含图像和文本的多模态数据，并生成合理准确的回答。

1年前
594
点赞
评论

多模态论文笔记——dVAE（DALL·E的核心部件）

详细介绍DALL·E的核心部件之一——dVAE，在VQ-VAE的基础上使用Gumbel-Softmax实现采样，用于图像生成。

1年前
569
点赞
评论

多模态论文笔记——dVAE（DALL·E的核心部件）

多模态论文笔记——VQ-VAE和VQ-VAE-2

本文详细介绍VQ-VAE和VQ-VAE-2的原理和训练过程，为后面的dVAE在DALLE中的使用打下坚实的基础。

1年前
1.5k
点赞
评论

多模态论文笔记——VQ-VAE和VQ-VAE-2

多模态论文笔记——BLIP2

本文详细介绍多模态模型：BLIP2。Bootstrapping Language-Image Pre-training for Unified Vision-Language Underst

1年前
659
点赞
评论

多模态论文解读——CLIP、BLIP

本文详细介绍这几年AIGC火爆的隐藏功臣，多模态模型：CLIP、BLIP。CLIP（Contrastive Language-Image Pre-training）

1年前
701
点赞
评论

多模态论文解读——CLIP、BLIP

多模态论文解读——DiT（Diffusion Transformer）

本文详细介绍Transformer架构图像生成方面的应用，将Diffusion和Transformer结合起来的模型：DiT。目前DiT已经成为了AIGC时代的新宠儿，视频和图像生成不可缺少的一部分。

1年前
921
点赞
评论

多模态论文解读——ViT、ViLT

本文详细介绍Transformer架构在计算机视觉方面的成功模型，将Transformer引入图像领域：ViT、ViLT。

1年前
454
点赞
评论

多模态论文解读——ViT、ViLT