首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
多模态论文解读
好评笔记
创建于2024-12-28
订阅专栏
多模态论文解读
等 2 人订阅
共10篇文章
创建于2024-12-28
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
多模态论文笔记——U-ViT
本文详细介绍U-ViT的模型架构和实验细节,虽然没有后续的DiT在AIGC领域火爆,但为后来的研究奠定了基础,但其开创性的探索值得学习。
多模态论文笔记——Coca
本文详细介绍多模态模型Coca,在DALL·E 3中使用其作为captioner基准模型的原因和优势。
多模态论文笔记——CogVLM和CogVLM2
本文详细介绍多模态模型的LoRA版本——CogVLM和CogVLM2。在SD 3中使用其作为captioner基准模型的原因和优势。
多模态论文笔记——LLaVA
本文详细介绍在aigc火热的多模态模型:LLaVA。处理包含图像和文本的多模态数据,并生成合理准确的回答。
多模态论文笔记——dVAE(DALL·E的核心部件)
详细介绍DALL·E的核心部件之一——dVAE,在VQ-VAE的基础上使用Gumbel-Softmax实现采样,用于图像生成。
多模态论文笔记——VQ-VAE和VQ-VAE-2
本文详细介绍VQ-VAE和VQ-VAE-2的原理和训练过程,为后面的dVAE在DALLE中的使用打下坚实的基础。
多模态论文笔记——BLIP2
本文详细介绍多模态模型:BLIP2。Bootstrapping Language-Image Pre-training for Unified Vision-Language Underst
多模态论文解读——CLIP、BLIP
本文详细介绍这几年AIGC火爆的隐藏功臣,多模态模型:CLIP、BLIP。CLIP(Contrastive Language-Image Pre-training)
多模态论文解读——DiT(Diffusion Transformer)
本文详细介绍Transformer架构图像生成方面的应用,将Diffusion和Transformer结合起来的模型:DiT。目前DiT已经成为了AIGC时代的新宠儿,视频和图像生成不可缺少的一部分。
多模态论文解读——ViT、ViLT
本文详细介绍Transformer架构在计算机视觉方面的成功模型,将Transformer引入图像领域:ViT、ViLT。