FLOAT：一种基于流匹配生成模型的音频驱动肖像说话视频生成的方法本文介绍了一种名为FLOAT的新型音频驱动肖像说话视频

本文介绍了一种名为FLOAT的新型音频驱动肖像说话视频生成方法，该方法基于流匹配生成模型，克服了传统扩散模型在时间一致性与快速采样上的局限。通过将生成建模转移至运动潜在空间，并引入基于变压器的向量场预测器，实现了高效的时间一致运动设计和逐帧条件处理。此外，FLOAT支持语音驱动的情感增强，促进自然表达性动作的整合。实验结果显示，FLOAT在视觉质量、运动真实性和生成效率上超越现有最佳技术。

[微信公众号：老贾探AI]

一、了解 FLOAT

FLOAT，一种基于流匹配生成模型的音频驱动说话人像视频生成方法。

运动潜在空间: 将生成建模从像素潜在空间转移到学习到的运动潜在空间，以实现时间一致的运动生成。
变换器向量场预测器: 引入了一个基于变换器的向量场预测器，用于帧级条件机制，生成时间一致的运动潜在。
流匹配: 使用流匹配生成自然的说话动作，通过解决相应的常微分方程（ODE）生成运动潜在。
情感增强: 支持语音驱动的情感增强，使生成的动作更具表现力。

优势特征

1. 提出FLOAT方法： 基于流匹配生成模型，提出了一种音频驱动的说话人像视频生成方法，能够在单个源图像和音频上生成自然的说话动作。
2. 学习运动潜在空间： 将生成建模从像素级潜在空间转移到学习到的运动潜在空间，从而更高效地设计时间上一致的运动。
3. 引入Transformer向量场预测器： 提出了一个简单而有效的基于Transformer的向量场预测器，支持时间上一致的潜在采样，并能够实现语音驱动的情感控制。
4. 情感增强： 通过使用语音驱动的情感标签，自然地结合表达性动作，增强了说话动作的自然性。
5. 实验结果： 广泛的实验表明，FLOAT在视觉质量、运动保真度和效率方面优于现有的扩散和非扩散方法。

二、实验设计

数据集和预处理：使用HDTF、RAVDESS和VFHQ三个开源数据集进行训练。对每个视频进行25 FPS的转换，并将音频重采样为16 kHz。然后，使用FaceAlignment工具将面部区域裁剪并调整为512×512的分辨率。
实现细节：使用Euler方法作为ODE求解器，运动潜在维度设置为512，包含20个正交方向。FMT使用8个注意力头，隐藏维度为1024，注意力窗口长度为2。使用Adam优化器，批量大小为8，学习率为 $10^{-5}$ 。
训练目标：通过重建从驱动帧计算的目标向量场来训练FLOAT。总损失函数包括流匹配损失和时间一致性损失：

$\mathcal{L}{\text{total}}(\theta) = \lambda{OT}\mathcal{L}{OT}(\theta) + \lambda{vel}\mathcal{L}_{vel}(\theta) \$

其中， $\lambda_{OT}$ 和 $\lambda_{vel}$ $ 是平衡系数。

三、结果分析

定量比较：在HDTF和RAVDESS数据集上，FLOAT在大多数指标上优于现有方法。例如，在HDTF数据集上，FLOAT的FID为21.100，FVD为162.052，E-FID为1.229，LSE-D为7.290。
定性比较：FLOAT生成的视频在视觉质量和运动真实性方面表现出色，特别是在情感表达和头部运动方面。
消融研究：通过消融研究验证了FMT的有效性，发现FMT在表情生成和唇形同步方面表现更好。此外，增加函数评估次数（NFE）可以提高运动的一致性和表现力。

不同NFE的ODE在HDTF上的消融研究。FPS是在单个NVIDIA V100 GPU上计算的

四、总结

本文提出的FLOAT方法通过流匹配生成模型实现了高效的音频驱动说话人像视频生成。通过引入基于Transformer的向量场预测器和语音驱动的情感标签，FLOAT在视觉质量、运动保真度和效率方面达到了最先进的水平。未来的工作将进一步探索更复杂的情感表达和实时视频生成。

不足与反思

1. 情感表达的局限性： 由于语音驱动的情感标签仅限于七种基本情感，难以捕捉更细腻的情感，如害羞。未来计划探索结合文本提示的方法来增强情感的自然性。
2. 数据集偏见： 训练数据集偏向于正面头部角度，导致生成的结果也表现出类似的偏见，对于非正面（如|ya w角度| ≥ 20°）的源图像或带有显著配件的图像效果较差。未来工作将考虑引入精心策划的外部数据或多视图监督来缓解这一问题。
3. 实时视频生成的优化： 当前方法尚未优化为实时视频生成，未来工作将进一步改进以实现虚拟头像聊天等应用。

五、问答回顾

问题1：FLOAT方法如何利用语音驱动的情感标签来增强说话运动的自然性？

1. 预训练语音情感预测器： 首先，使用预训练的语音情感预测器生成七种不同情感（愤怒、厌恶、恐惧、快乐、中性、悲伤和惊讶）的概率分布。
2. 输入向量场预测器： 将这些情感标签作为驱动条件输入到向量场预测器（FMT）中。FMT基于Transformer架构，采用DiT的架构将帧间条件与时间轴注意力机制解耦，从而实现时间一致的运动潜在采样。
3. 情感引导： 在训练过程中，将情感标签与其他驱动条件（如音频表示和源运动潜在）一起注入到模型中，并在推理阶段进行调整，以确保生成的说话运动更具表现力和自然性。

通过这种方式，FLOAT方法能够利用语音的情感信息来增强说话运动的自然性和表现力，使得生成的视频在情感表达上更加真实和生动。

六、引用

arxiv.org/abs/2412.01…

七、关于社区

『老贾探AI』主要关注LLM、RAG、智能文档等技术方向，并持续提供AI行业热点资讯、精选论文解读等。

加入方式：关注公众号，在菜单栏->社区群加入