大家好,开年AI领域又是各种火爆,前有OpenAI发布的AI视频生成模型Sora惊艳全网,今天又听说AI数字人领域又爆了——阿里巴巴发布EMO,一张照片+音频,就能实现你说任何话或唱任何歌曲的动态视频。
EMO简介
官方介绍:EMO(Emote Portrait Alive),一种富有表现力的音频驱动的肖像视频生成框架。输入单个参考图像和声音音频,例如说话和唱歌,该方法可以生成具有表情丰富的面部表情和各种头部姿势的声音头像视频,同时,我们可以根据输入视频的长度生成任意持续时间的视频。
直接看案例
我们来直接看一些案例,看看EMO到底牛在哪:
①表情丰富的动态渲染视频:采用EMO技术生成的视频,其表情自然而富有细腻的面部动作,能够捕捉到音频中情感的细微差别。高启强化身罗翔,给大伙儿普法,表情非常丰富自然!
②支持任意节奏:EMO能够处理任意节奏的音频,即便是快速的rap饶舌歌词或快语速说话,都能使生成的数字人像的动作与音频节奏保持同步。让kunkun唱rap,甚至毫无压力。
③多样的头部姿势变化:除了面部表情外,使用EMO生成的数字人视频,具有多样的头部姿势变化,使得生成的数字人更加具有真实感。由Sora生成的视频那个女主角,现在可以开口说话了,并且头部姿势变化非常自然。如果不跟你说,你会怀疑这个是AI?
总之就是,表情动作自然到位,支持任意语音、任意语速、任意图像,一键生成数字人!AI这个7*24小时不停发展的速度也太快了,而且最关键的是EMO宣布开源,但……却被骂惨了。
大家上去官方页面,发现GitHub上仍然是空仓,好家伙,吊胃口你是专业的。没事,趁着EMO还没开源,不如给其他产品一次机会。