用户可控的统一风格迁移框架

59 阅读3分钟

用户可控的统一风格迁移框架

神经风格迁移是通过神经网络将一幅输入图像(如著名画作)的风格迁移到另一幅输入图像(如后院照片)的技术。研究人员提出了多种不同的风格迁移技术,但哪种效果最佳?这个问题没有标准答案,因为观看者的偏好各不相同。

在AAAI 2023会议上发表的一篇论文中,研究人员描述了一种新的风格迁移模型,该模型可以输出多个选项,由用户选择的模型参数控制。研究表明,大多数先前的风格迁移方法都可以重写为标准化形式,称为分配-混合模型。

分配-混合模型

该模型的"分配"步骤涉及一个分配矩阵,该矩阵将一个输入图像的特征映射到另一个输入图像的特征。不同风格迁移技术之间的差异主要在于分配矩阵的熵值或矩阵值的多样性。

给定用户指定的输入参数设置,称为Sinkhorn-Knopp的算法可以高效计算相关的分配矩阵,从而从同一风格迁移模型产生多样化输出。

实验验证

在一系列实验中,研究人员将新方法与先前方法进行了比较。根据标准指标,新方法在保持内容输入的内容和风格输入的风格方面表现更好,并产生了更多样化的输出。

在包含10名人类评估者的研究中发现,在特定多样性参数设置下,受试者更喜欢新方法生成的图像。

技术实现细节

风格迁移的第一步是将内容示例和风格示例传递到相同的视觉编码器,该编码器通常在广泛的对象识别任务上进行预训练。编码器生成每个图像的表示,其中每个图像区域都有相关的特征向量。

分配-混合的"分配"步骤对应于重新排列风格图像元素以重现内容图像内容的方法。它涉及分配矩阵,该矩阵在内容表示的指导下,将特征向量从风格表示分配到新图像的各个区域。

分配步骤之后是混合阶段,该阶段对应于扭曲内容图像使其聚合统计量类似于风格图像的方法。在此阶段,逐步处理新的合成图像的编码,并测量每个图像区域编码与原始内容示例编码之间的距离,然后按照发散程度比例混合原始内容编码中的特征向量。

计算优化

该过程中的计算瓶颈是创建具有不同熵值的多个分配矩阵。研究表明,Sinkhorn-Knopp算法可以应用于构建分配矩阵的问题,该算法使矩阵能够以支持高效解决方案的标准化形式重写。

研究中使用分配-混合格式重写了三种先前的风格迁移方法。选择这些方法是因为它们的分配矩阵覆盖了完整的熵值范围。新方法应该能够近似任何分配矩阵熵值在更有限范围内的风格迁移模型的输出。