AniPortrait:音频驱动逼真人像合成,腾讯AI数字人整合包

314 阅读2分钟

AniPortrait:音频驱动逼真人像合成,腾讯AI数字人整合包

之前阿里展示EMO项目让照片唱歌说话时,惊艳了所有人,然而到现在为止一直还没开源被饱受诟病,今天腾讯的AniPortrait来啦!也是一个让照片开口项目说话的项目!根据音频和图像输入 生成会说话、唱歌的动态视频它可以根据音频(比如说话声)和一张静态的人脸图片,自动生成逼真的人脸动画,并保持口型一致。支持多种语言,同时支持进行面部重绘和头部姿势控制。

腾讯提出的新颖框架,专注于通过音频和参考肖像图像生成高质量动画。该方法分为两个阶段:首先从音频中提取3D中间表示,并将其投影到2D面部地标序列中;其次,使用一个结合运动模块的高质量扩散模型,将地标序列转换为逼真且时间上连贯的肖像动画。

Github开源地址:

github.com/Zejun-Yang/…

核心技术

  • 音频分析:AniPortrait接收音频文件作为输入,通过对这些数据的深入分析,识别出语音模式、情感和节奏。
  • 动画生成:依据音频分析结果,AniPortrait能够生成与声音匹配的肖像动画。特别是在音频包含说话声的情况下,动画会模拟真实的口型和面部表情,以符合说话的节奏和情绪。

所提出的框架包括两个模块,Audio2Lmk 和 Lmk2Video。前者旨在从音频输入中提取一系列能够捕捉复杂面部表情和嘴唇运动的关键点序列。后者利用这些关键点序列生成具有时间稳定性的高质量肖像视频。下图1中概述了该框架,并在下文提供了更多细节。

生成结果

如何下载资源?

1:下载压缩包 首先,您需要从以下链接下载一键启动包:

2:启动程序

下载完成后,解压压缩包,点击"启动程序"

3:浏览器操作

在浏览器中访问 http://127.0.0.1:7680/,即可通过界面使用工具。

系统要求

请确保您的电脑满足以下配置要求:

  • 操作系统:Windows 10/11 64位
  • 显卡:至少16GB显存的NVIDIA显卡

更多AI资源和资讯,欢迎访问AI科技智库

AI科技智库,一站式AI工具、资料、课程资源平台,致力于通过分享全球优质AI工具、资源和资讯,帮助更多人了解使用AI,提升工作学习效率。