文生图/文生视频学习笔记

文生图/文生视频学习笔记

文生图/文生视频学习笔记

文生图/文生视频学习笔记

暂无订阅共4篇文章创建于2026-03-06

深度拆解 VAE：生成式 AI 的潜空间大门

深度拆解 VAE：生成式 AI 的潜空间大门 VAE (Variational Autoencoder) 是一种生成模型，它通过将高维数据（像素）映射到一个连续的低维概率分布（潜空间），实现了数据的压

28天前
80
1
评论

深度拆解 DiT：扩散模型与 Transformer 的巅峰结合

21-DiT详解：扩散模型遇上Transformer的图像生成革命引言 DiT（Diffusion Transformer）是Meta AI在2023年提出的突破性工作，它用纯Transformer

28天前
165
1
评论

深度拆解 CLIP：连接文本与视觉的语义桥梁

深度拆解 CLIP：连接文本与视觉的语义桥带 CLIP (Contrastive Language-Image Pre-training) 是现代生成式 AI（如 Stable Diffusion,

1月前
109
1
评论

从文字到像素的“炼金术”：拆解 AI 绘画背后的 CLIP、DiT 与 VAE

当你输入“一只在霓虹灯下喝咖啡的赛博朋克猫”，点击生成，几秒钟后一张充满细节的大作就会跳出屏幕。这背后并不是某种神秘的随机魔法，而是一条精密、高效的“工业流水线”。在这个流水线上，有三位核心“专家”

1月前
45
1
评论