最近阅读了北京大学的研究团队在 arXiv 平台上发布的一篇关于文本到图像合成(Text-to-Image Synthesis, T2I)技术的十年综述论文,题为《Text-to-Image Synthesis: A Decade Survey》,该论文对 T2I 领域的 440 多项最新研究成果进行了全面深入的回顾与分析,为读者呈现了这一前沿技术的发展脉络、核心模型、关键研究方向以及未来发展趋势。
论文地址为:arxiv.org/pdf/2411.16…
参考文章:waytoagi.feishu.cn/wiki/NZPXwq…
T2I 技术的重要性
文本到图像合成技术能够将文本描述转化为相应的图像,其重要性不言而喻,不仅革新了内容创作方式,还成为迈向通用人工智能的关键一步,在艺术创作、设计、多媒体应用等诸多领域都具有巨大的应用潜力。
Diffusion Model 和 Auto-regressive LLM 两个技术路线并非完全独立,有融合的趋势, Diffusion 也在不断地吸收和学习来自语言模型的方法,因此目前的主流 Diffusion Model 实际上大量使用 Transformer 的模型架构。
基础模型
当前,T2I 领域的主流基础模型包括生成对抗网络(GAN)、自回归模型(AR)和扩散模型(DM)。这些模型各自有着独特的原理和机制,共同推动了 T2I 技术的发展。
GAN(生成对抗网络)
2016 年 -2021 年较火热,后续放缓,不再是主流方向
GAN 由生成器和判别器组成,通过对抗训练的方式,生成器不断学习生成更逼真的图像以欺骗判别器,而判别器则努力区分真实图像和生成图像。在 T2I 任务中,条件 GAN(cGAN)技术的应用使得 GAN 能够依据文本描述生成图像,为 T2I 研究奠定了基础。不过,GAN 的训练过程较为复杂,存在模式崩溃等挑战,从GAN,模型提出至今,有很多的研究者对其进行了缝补改进,发表了不少相关论文。
AR(自回归模型)
2020 年至今,囿于闭源模式和参数量较大,研究成本高,选代速度慢于 Diffusion Model
自回归模型最初主要用于自然语言处理任务,通过 Transformer 架构的引入,其在图像生成领域的潜力得到了释放。DALL-E 和 CogView 等模型率先将 Transformer 应用于 T2I,通过自回归的方式逐步生成图像像素或特征,能够有效捕捉文本与图像之间的复杂语义关系,生成与文本描述高度相关的图像。然而,自回归模型的计算成本在三种模型中最高,在某些应用场景下的实用性受到限制。
DM(扩散模型)
2022 年至今,受益于开源模式和参数量较少,研究成本相对低,在学术界和工业界的传播和迭代速度快
扩散模型基于非平衡热力学理论,通过逐步添加噪声将数据转化为高斯噪声分布,再在去噪过程中学习恢复原始数据。在 T2I 中,扩散模型能够依据文本提示生成图像,展现出了卓越的生成性能。GLIDE 是首个将扩散模型应用于 T2I 的工作,而 Latent Diffusion Model(LDM)则进一步凸显了潜在空间在扩散模型中的重要性,大幅提升了生成图像的质量,使扩散模型成为 T2I 领域的热门研究方向。
研究方向
T2I 的研究不仅聚焦于提升模型性能,还深入探索了多个关键方向,以满足不同应用场景的需求。
对齐与人类反馈
确保生成图像与文本描述以及人类认知相一致是 T2I 研究的核心目标之一。ImageReward 模型等通过编码人类偏好,支持基于人类反馈的强化学习,从而进一步优化生成模型的性能,使生成图像更符合人类的期望。
个性化图像生成
个性化 T2I 生成能够根据特定用户的喜好、需求或个人特征来创建图像。DreamBooth 等模型通过引入自定义主题,使得生成的图像能够在不同场景和视角下保持一致性,为用户提供一个更加个性化、精准化的图像生成体验。
可控 T2I 生成
可控 T2I 生成技术赋予用户对生成图像内容和风格的精确控制能力。ControlNet 等技术通过引入条件图像(如草图、边缘图)引导预训练图像扩散模型的生成过程,极大地增强了内容生成的灵活性和定制化程度,满足了用户对于图像生成的多样化需求。同时,在多轮迭代可控生成方面,也有很多工作可做。
T2I 风格迁移
T2I 风格迁移融合了 T2I 生成与风格迁移的优势,允许用户依据文本描述和风格图像生成具有特定艺术风格的图像。InST、Styleformer 等方法在这一领域取得了显著成果,为艺术创作和设计领域带来了新的可能性。
文本引导图像生成
文本引导图像生成技术使得用户能够基于文本提示对现有图像进行详细调整和重新配置。Imagic 等方法通过优化文本嵌入和微调预训练扩散模型,显著提升了图像编辑的精确度,为图像的后期处理和优化提供了有力工具。
除此之外,还有文生图肢体逻辑合理性优化,高一致性的多IP融合与交互生成等多个技术难题亟待解决。
结语
文生图模型的演进历史整体上反映了 CV 和 NLP 的融合与发展。从早期的基础尝试到结合了深度学习。Transformer 和大型语言模型的先进方法,文生图模型在技术上实现了巨大的飞跃,不断延伸 AI 在艺术和创造力方面的边界。相信未来的文生图模型将进一步提升在复杂文本理解和高质量图像生成方面的能力,为多模态交互和创意表达提供更加强大的工具。
T2I 技术作为 AIGC 的重要组成部分,主要改变的将是内容创作和多媒体应用的格局。随着基础模型的不断创新、研究方向的深入探索以及数据集和评估指标的日益完善,T2I 技术将在更多领域释放潜力,为人类创意表达和信息传递带来全新可能。当然,该技术在版权,安全,伦理等方面依然有很大的挑战,这也是相关从业者要面临的课题。