为什么数字人和真人一模一样?

203 阅读3分钟

AI数字人是什么:是利用人工智能技术实现与真人直播形象的1:1克隆,即克隆出一个数字化的你自己,包括你的形象、表情、动作和声音都会被克隆下来,让你能够拥有接近真人的表现力。你可以通过我们的系统克隆出多个AI形象,每个数字人都有独特的个性和风格。无论是批量制作短视频,还是直播7*24小时都可以。

一.生成数字人的步骤:

第1步:您需要录制主播正视镜头说话的5分钟高清视频,上传到青否数字人saas系统的克隆端(源码:zhibo175)

第2步:根据青否数字人SaaS系统(🌏:zhibo175)提供的超详细课程,针对主播形象自动进行克隆训练。 克隆出的数字人主播妆容、神情、动作与真人主播100%一致,完美还原真人主播的微表情,动作和声音。克隆后的数字人保证了企业IP的唯一性和稳定性。

image.png 二.声音克隆:

声音克隆 - 音频采集规范:

1、音频时长

有效音频时长20分钟,如果带口音,音频建议不少于30分钟;

2、录音准备

根据不同使用需求,准备5000字左右的文本内容,内容和应用场景(朗读、直播、日常讲话等)语境相符;

3、录音环境

录音环境安静,环境底噪小于40dB,可使用“分贝仪”APP测试录音环境底噪; 录制时保持无回音、无混响、无噪声等;

4、录音设备及录音参数

录音设备推荐降噪麦克风/小蜜蜂,条件允许建议使用防风棉衣或防喷罩; 推荐使用48kHz采样率录制音频; 推荐无损音质格式保存音频,如: wav、 fiv、m4a,不能使用压缩格式保存音频,如:mp3;

5、录音人

录音人不宜离麦太近,防止喷麦和录入呼吸声连贯说完一句话; 发音清晰、吐字清楚,句与句之间断句清楚; 句与句之间停顿1~2秒; 保持语境风格一致,避免多种情绪混杂。

驱动数字人输出声音的两种方式:

1.文本驱动是用AI合成的声音输出来配合数字人,青否数字人系统可以输出最多140种语言,服务全球用户,可选择301种音色,还可以克隆出来你的专属音色,满足不同类型的主播需求。

2.AI合成的声音还有一种更高级的存在,就是克隆自己的声音,用自己克隆的声音匹配自己的数字人模型,口型匹配度非常高,数字人更容易达到以假乱真的水平,但声音克隆的成本在时面上比较高,一般费用要8000元或更多,而青否数字人独立部署之后无限克隆声音,没有其他的收费。

image.png 不管是声音还是形象输出的效果跟真人是没有差别的,所以数字人完全可以当作真人的替身,去进行直播,输出视频等等