OneDiffusion：无缝支持双向图像合成和理解的开源扩散模型

2024-11-28 254 阅读2分钟

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

功能：支持文本到图像生成、条件图像生成和图像理解。
技术：采用流匹配框架和序列建模技术。
应用：广泛应用于艺术创作、广告、游戏开发等领域。

正文

OneDiffusion 是什么

公众号: 蚝油菜花 - OneDiffusion

OneDiffusion 是由 AI2 推出的多功能大规模扩散模型，能够无缝支持双向图像合成和理解。它涵盖了文本到图像生成、条件图像生成、图像理解等多种任务。OneDiffusion 通过将所有条件和目标图像建模为序列“视图”进行训练，实现了在推理时任意帧作为条件图像的能力。

OneDiffusion 的统一训练框架、可扩展性和对多任务的支持，使其成为一种通用的视觉模型解决方案。

OneDiffusion 的主要功能

文本到图像合成：从文本提示生成高质量、逼真的图像。
条件图像生成：基于输入图像（如深度图、姿态图）生成新图像。
图像理解：执行如深度估计、姿态估计和图像分割等任务。
多视图生成：从单一图像生成多个视角的一致视图。
即时个性化：用序列图像输入进行个性化生成。
ID定制：基于个人身份信息进行图像定制和生成。
零样本高分辨率生成：即使在训练中未遇到高分辨率，也能生成高分辨率图像。

OneDiffusion 的技术原理

流匹配框架：使用流匹配（Flow matching）框架训练连续时间生成模型，学习时间依赖的向量场转换概率分布。
序列建模：将所有条件和目标图像建模为一系列“视图”，在训练时作为序列处理，每个视图带有不同噪声水平。
灵活的框架：在推理时，任何视图都能用作条件输入或被设置为噪声，生成输出图像。
统一训练框架：基于统一的训练框架，去除对特定架构的需求，支持可扩展的多任务训练，并能适应任意分辨率。
噪声调度：在训练过程中，独立采样每个视图的时间变量和高斯噪声，实现不同噪声水平的视图。

资源

GitHub 仓库：github.com/lehduong/On…
arXiv 技术论文：arxiv.org/pdf/2411.16…

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦