虚拟数字人核心技术、服务场景及相关产品

915 阅读19分钟

本文已参与「新人创作礼」活动,一起开启掘金创作之路。

今年4月份的时候研究了下虚拟人现在常见的类型和使用技术,也总结了几种常见的应用场景和成熟的产品,现在发在掘金上,大家可以一起探讨。

1. 虚拟数字人定义

虚拟数字人指存在于非物理世界中,由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机手段创造及使用,并具有多重人类特征(外貌特征、人类表演能力、人类交互能力等)的综合产物。市面上也多将其称为为虚拟形象、虚拟人、数字人等,代表性的细分应用包括虚拟助手、虚拟客服、虚拟偶像/主播等。

2. 技术路线

从技术层面来看,虚拟数字人可以分为真人驱动型和计算驱动型。

真人驱动型需要有真人去操作,在动作灵活度、互动效果等方面有较大优势,如影视内容创作(泰迪熊、阿凡达)、虚拟主播(codemiko)等需要用专业的动作捕捉设备,iPhone12以上的摄像头可使用识别算法实现人脸动作捕捉,这类需要动捕设备或摄像头的都是真人驱动型。

而计算驱动型是使用多模态技术和深度学习技术,虚拟数字人的语音表达、面部表情、具体动作将主要通过深度学习模型的运算结果实时或离线驱动,在渲染后实现最终效果。计算驱动的虚拟数字人最终效果受到语音合成(语音表述在韵律、情感、流畅度等方面是否符合真人发声习惯)、NLP技术(与使用者的语言交互是否顺畅、是否能够理解使用者需求)、语音识别(能否准确识别使用者需求)等技术的共同影响。尽管在特定方向上,各感知类技术已有的商业化能力已足以支撑,然而,但要达成理想的综合效果,需要该公司在三个方面同时具有较强的综合能力。这也间接导致国内开展计算驱动型虚拟数字人业务的公司,大多是在感知技术方面有较强的综合实力,相对成熟的AI技术公司。

2.1. 真人驱动型技术流程

  1. 形象设计及建模
    基于IP设计或真人偶像绘制原画,进行面部及身体3D建模,选择关键点。

2.建模绑定
将识别关键点映射至模型上,进行绑定。关键点绑定的数量及位置影响最终效果。

  1. 表演捕捉
    利用动作捕捉设备或特定摄像头+图像识别,捕捉在形体、表情、眼神、手势等方面的关键点变化。

  2. 驱动及渲染
    真人演员(在虚拟偶像中称为中之人)根据制作需要进行相应表演,实时驱动虚拟数字人表演。在较为精细的制作中,会需要根据真人演员和建模的区别进行重定向,并对动作、眼神、手指等采用不同的驱动方式。需要时需进行语音合成,形成特定设置语音。

5.生成内容,进行互动
进行直播,或录制其动作生成内容。

2.2. 计算驱动型技术流程

  1. 设计形象。扫描真人形态及表演、采集驱动数据
    利用多方位摄像头,对通用/特定模特进行打点扫描(视最终需求可进行全身或局部扫描),采集其说话时的唇动、表情、面部肌肉变化细节、姿态等数据。

  2. 形象建模,进行绑定
    设计所需的模型,或基于特定真人进行高还原度建模。进行关键点绑定。关键点绑定的数量及位置影响最终效果。
    当需要基于真人照片生成虚拟内容时,一类做法是将通用的人脸模型迁移至该真人照片上,形成虚拟形象,实质为表情迁移。另一类则是生成动漫类效果,基于预先设置的形象分类算法,将真人照片中的眼型、发型等元素进行分类,并与预先设置的动漫元素进行匹配,最终生成动漫式的虚拟形象。

  3. 训练各类驱动模型:决定最终效果的核心步骤
    利用深度学习,学习模特语音、唇形、表情参数间的潜在映射关系,形成各自的驱动模型与驱动方式。
    充足的驱动关键点配合以精度较高的驱动模型,能够高还原度的复原人脸骨骼和肌肉的细微变化,得到逼真的表情驱动模型。如魔珐科技等业界领先的模型可组合出超千种表情效果,并包含眼神驱动。科大讯飞、竹间智能等公司会对语音/文本中的因素进行提取,增加情感驱动模型等。
    目前为止,大多数厂商的驱动模型大多是语音-唇形,语音-驱动。动作、手势等驱动大多依靠人为现场指令或预设置驱动。
    对于需对特定真人定制化的数字化虚拟数字人,部分公司会基于在通用驱动模型的基础上,结合少量真人驱动数据训练定制化驱动模型。这种情形可视作预训练模型+小样本学习。

  4. 内容制作:基于输入的语音(或由输入文本转化的语音),预测唇动、表情等参数
    核心的技术流程是基于输入的语音,或首先基于TTS技术(Text-to-speech,语音合成技术),将输入的本文转化为语音。基于语音,结合第3步得到的驱动模型,并利用生成对抗模型GAN选出最符合现实的图片,推理得到每帧数字人的图片。通过时间戳,将语音和每帧的数字人图片进行结合。

5.进行渲染,生成最终内容。直播时进行实时渲染
为保证在特定场景下能够实现实时低延迟渲染,计算框架的大小、算力供给等技术问题同样会影响到虚拟数字人的最终生成效果。

附加步骤:
针对需要进行交互的虚拟数字人,生产商会预先设置有问答库、知识图谱等,并承接入虚拟数字人的对话系统。

2.3. 虚拟人的三个核心技术

  1. CG建模/图像迁移技术影响外观呈现:体现为虚拟数字人外观的拟人程度。国内外在该项上的技术差异,部分导致了目前国内外玩家主要专注于不同的细分场景和发展路径。现有的虚拟人形象包括超写实角色、三维美型角色、2.5次元角色、二次元角色、卡通角色等。

  1. NLP交互技术影响交互体验:以对话能力为核心。继文本对话助手、语音AI助手后,该技术继续在虚拟数字人中发挥核心作用,可以视作为虚拟数字人的大脑。在AI交互助手方面已有理想成效,如小冰等,公司能够为其添加较好的通用式互动能力。另外可通过知识图谱、业务问答库、对话型工程引擎等增强虚拟数字人的业务互动能力。2021年,Fable Studio的新虚拟数字人Charlie和Beck背后将有GPT-3支撑,生成类语言模型的加入有望显著提升虚拟个人助手的日常交互能力,这也将是GPT-3实现商业化的全新途径。

3, CV等深度学习模型影响驱动效果:受数据量、计算框架、关键特征点等因素深刻影响。能否呈现自然的面部表情变动、肢体变动等,在极大程度上取决于语音驱动的深度模型效果。除此之外,能否对情感等因素进行特别设计,同样会产生重要影响。

3. 服务场景及相关产品

应用上,虚拟数字人可分为代替真人服务的服务型和用于娱乐/社交的身份型。两者的核心功能、产出定位、代表应用、产业价值均明显不同:

3.1. 服务型虚拟数字人相关产品

目前,国内的服务型虚拟数字人主要用于替代真人进行播报等内容生成,并进行简单问答交互等。而国外则由于在CG(Computer Graphic,计算机图形学)方面具有技术优势,能够打造具有高度关怀感的虚拟数字人,率先在医疗等场景落地了虚拟陪伴助手、心理咨询顾问等。

整体而言,由于虚拟数字人提供动作、表情等更多维度的信息,之前仅基于文本、图像或语音的单模态服务及内容都能以虚拟数字人的形态进行更丰富的呈现。内容方面,有声读物、文本内容等将有望快速扩展至视频领域。除去常见的课件等内容生产外,部分面临着人才短缺、但希望能够融媒体转型的县市级媒体,也在试图通过有服务型虚拟人,低成本地生成所需媒体内容。服务方面,通用的语音助手、个性化顾问、车载系统,针对特定场景的指引、导览等均能够以更为人性化和易于使用的方式呈现。不过,尽管虚拟数字人似乎通用性很强,但仍需要注意,目前的制作成本仍高达百万级,需要首先关注对多模态信息和拟人化具有强烈需求的场景。

3.1.1. 虚拟主持人、虚拟新闻主播

  • 虚拟新闻主播央视小c:

小c在2021年两会期间亮相,她在3月7日的第一次“上岗”就与全国人大代表梁倩娟进行了独家对话,成为媒体行业内首个直播连线采访人大代表的“3D超写实数字人”,也是央视网人工智能编辑部的“新成员”。

  • 央视新闻AI手语主播

2021年11月,央视新闻AI手语主播正式亮相。她形象亲切自然,动作精确、实时转译的主播,从2022年北京冬奥会开始,全年无休,为听力障碍群体做好报道。2022年2月4日,中央广播电视总台央视新闻AI手语主播正式上岗,她在央视新闻冬奥直播特别节目《冬奥来了》中首次启用并参与北京冬奥会总台新闻播报、赛事直播和现场采访。

  • 虚拟主持人湖南卫视小漾

2022年1月1日,小漾作为实习主持人亮相《你好星期六》,小漾是研发团队通过原画对其五官、发型、体态、服饰等进行设计后,对形象角色进行建模处理、角色绑定。再通过面部捕捉、动作捕捉,以及对衣服、毛发动力学解算和灯光匹配制作等,历时三个多月经过15次修改,最终合成输出的一个虚拟形象。

3.1.2. 虚拟电商主播

虚拟的电商主播可为品牌、电商平台提供7*24小时电商直播,商家只需要预制商品介绍文本和FAQ预料,即可驱动虚拟主播无间断地介绍对应商品,并在商品介绍间隙回答用户提问,帮助商家提升直播时长、提高店铺整体转化率。

3.1.3. 虚拟教师

可用于3D课程内容制作、AI互动课、双师教学等场景,帮助企业、教学机构提升3D课程内容制作效率,摆脱企业对真人教师的形象依赖。适用于在线教育、校内教育、企业培训。

  • 河南虚拟教师“河开开”

2月21日,河南开放大学新学期开学第一天,虚拟女教师“河开开”身穿藕粉色职业装在校园首次和大伙儿见面,3月24日,“河开开”老师首次换装亮相,这次她身着一身干练的黑色职业套装,已经成为积极向党组织靠拢的入党积极分子,并参加了河南开放大学的教育数字化联合主题党日活动。据了解,目前河开开老师的主要工作是担任主播,面向全省播报学校的教育教学支持服务等工作。未来,学校将利用人工智能的赋能,进行教学改革,帮助学生远程答疑,担任老师的教学助教,进行双师协同教学。

  • 虚拟口语老师“瓜瓜龙”

瓜瓜龙是字节跳动的虚拟口语老师,专为3-8岁孩子提供多学科在线的系统性AI启蒙教育。

3.1.4. 虚拟客服、虚拟医生

在客服岗位上,数字人正在逐步替代真人。京东推出了虚拟数字人客服“Joyce”,不仅能回答商品咨询、价保、催单、取消订单、活动、资产、金融、售后政策等多种问题,甚至可以和用户讲笑话,在表达上完全和真人一样。银行也同样开始采用数字人作为客服和理财经理。宁波银行上海分行迎来001 号数字人员工“小宁”,以栩栩如生的客服形象为银行客户提供各类业务咨询和办理服务。目前,小宁能回答550个以上常见业务问题,以及由此衍生的3000个以上相关业务问题。通过不断地优化和学习,“小宁”每天还能新增50个以上衍生问题。另外,各大银行和营运商也纷纷采用数字人客服。光大银行采用数字人“小璇”,浦发银行采用数字人“小浦”,中国联通采用数字人“小U”。一场数字人风潮,正在各大企业的客服岗位上流行起来。

  • 京东“数字人”客服Joyce

“数字人”客服Joyce是语音合成、自然语言理解、3D美术、视频驱动多维技术融合的创新成果,将表情、动作、口型、情感完美融合,“数字人”客服目前已覆盖商品咨询、价保、催单、取消订单、活动、资产、售后政策、金融八大场景,提供操作类、应答类、闲聊类客户服务,动作、表达也更为逼真。

  • 交通虚拟客服青青

2020年6月22日,科大讯飞与中软万维联合推出了青岛地铁2号线台东站虚拟客服。该虚拟客服以一体机的形式呈现,面对迎面而来的乘客,不仅能够做到主动唤醒,而且还能快速扁平式地进行专业回答,涉及内容覆盖地铁BOM亭所有常规业务领域。

  • 上海精神卫生中心虚拟诊疗师

上海精神卫生中心的“物质成瘾患者心理干预方法,系统及存储装置”专利以虚拟数字人、多模态病理表现识别等多种新型技术,融合专业知识图谱研发的成瘾诊断评估与心理康复机器辅助系统,集成人工智能虚拟成瘾康复治疗师,为国内首创。该人工智能虚拟成瘾康复治疗师有望辅助成瘾医学专家,完成对成瘾者开展标准化诊断评估与康复治疗的自动化过程,缓解我国目前成瘾医学专业人员匮乏问题,对实现科学化、标准化、智能化成瘾心理康复治疗,创新我国成瘾康复模式具有重要意义,对降低成瘾相关危害具有重大社会及经济效益。

3.2. 身份型虚拟数字人相关产品

3.2.1. 直播中的虚拟主播

  • 国外直播的CodeMiko

CodeMiko背后其实是一个真实的人,她通过动作捕捉技术,实现与虚拟人的语言和动作同步。主播是洛杉矶的一位韩裔女生,本是动画公司的一名职员,在疫情裁员时不幸被“优化”,自此失去收入来源,走上了Twitch游戏主播创业之路。她凭借在3D建模领域已经多年的开发经验,自主开发了虚拟人形象以及面捕软件,而穿戴设备由动捕设备公司半价提供。CodeMiko的整套硬件设备主要包括一部带刘海屏的iPhone、Xsens运动捕捉紧身衣、动作捕捉手套、配备两块RTX 3090显卡的主机,合计下来在20万左右。软件主要包括:预先在Maya设计好的人物模型、Unreal虚幻引擎开发工具,据Miko称,光软件的一年要花的钱就要6万。由于需要动捕的成本较高,因此这类主播较少,她还会开发代码、会整活、会互动,通过她的一系列整活使粉丝自愿充钱,收获颇丰,包括像英伟达、微星这样的各大厂商也是找上门,送产品、送资金,为这个虚拟形象的发展开路。

  • B站二次元形象虚拟主播

点开B站搜索虚拟主播,点开直播标签页,可以看到有很多的虚拟主播,基本上都是二次元形象,甚至连蔡明老师都化身 “ 菜菜子 Nanako”,开始在 B 站做直播了。虽然这些二次元形象和人设大不相同,不过日常直播的内容都挺类似,大多都是唱歌跳舞打游戏。

3.2.2. 虚拟网红

据美国媒体The Drum报道,品牌方将持续加大网红营销投入,预计2022年,网红相关的投放将占营销总投入的20%,网红营销市场规模将达150亿美金。这有可能只是保守估计,雅诗兰黛早在2019年就已将75%的市场经费花在网红营销方面。

快速发展的虚拟网红,因为人设易于控制、稳定以及低成本,正在吸引品牌方的关注。一方面,他们与数字虚拟网红合作,请他们代言/带货,另一方面,许多品牌正在加大投入设计自己品牌的数字虚拟代言人。

  • 美国虚拟网红Lil Miquela

Lil Miquela是一个由Trevor McFedries和Sara Decou创造的角色,坐拥超过 130 万 Instagram 粉丝,还与特朗普、Rihanna 一同入选《时代》年度「网络最具影响力人士」榜单,然而这位资深网红并不是有血有肉的「人」,而是一个由计算机生成的 KOL。Miquela被赋予的人设是一位住在洛杉矶的20岁巴西西班牙混血女孩,同时她还是模特和歌手,曾为街头服饰和Calvin Klein、Prada等多个奢侈品牌代言,并在《Wonderland》、《New York Magazine》和《Vogue》等杂志出现,受到越来越热烈的探讨。

  • 日本虚拟网红lmma

宜家日本原宿店邀请数字虚拟网红Imma录制了一条3天3夜的宅家视频,凭借标志性的粉红色头发,Imma坐拥30多万Ins粉丝,大牌代言接到手软,SKII也邀请lmma加盟广告。

  • 中国首位虚拟偶像 翎

2020年11月下旬,由央视主办的选秀节目《上线吧!华彩少年》的一波波预告中,一个名为翎Ling的练习生引发了一些网友的评论。翎Ling由“魔珐科技”联合“次世文化”推出,她和国际知名的博主们类似,会同真人一样在社交平台上分享自己的日常及照片。她拥有较为完整的“人设”——热爱中国传统文化,喜欢京剧,毛笔字和太极。单字“翎”是取材于京剧花翎的“翎”,她的声音源自梅派的第三代传人。

  • 中国的AYAYI

2021年5月,AYAYI 亮相小红书,首发帖阅读量近 300 万,一夜涨粉近 4 万。作为中国第一个真正意义上的Metahuman,领先的技术力量让AYAYI不仅五官与真人极为相似,在皮肤质感上也能做到对现实的高度还原。如果仔细观察她的每张照片,你还会发现,AYAYI所使用的数字引擎对于不同环境、不同光影条件具有很强的模拟和渲染能力,并在最终呈现时让每张照片更佳鲜活灵动。后来AYAYI 宣布入职阿里,成为天猫超级品牌日的数字主理人,二者将共同开启元宇宙的营销世界。并称,在未来她将与天猫解锁多个身份,如 NFT 艺术家、数字策展人、潮牌主理人、顶流数字人等等。

  • 2.5次元、抖音虚拟美妆达人柳夜熙

古风、美妆、灵异、科技、赛博朋克,“柳夜熙”为大家展现出了一个截然不同的短视频呈现模式。而它不管是外形装扮还是视频部分元素,都有浓郁的中国传统色彩。随着“柳夜熙”的走红,其背后创作团队“创壹视频”逐渐浮出水面。2021年年初,创壹将目光投向了“虚拟人”“元宇宙”这一赛道。梁子康坦言,“柳夜熙”只是他们构建元宇宙观的开始,是打造的“中国式漫威”的角色之一,预计在两年内共有10个虚拟人物上线。

3.2.3. 其他虚拟角色(虚拟IP、虚拟代言人等)

IP是intellectual property的缩写,是指知识产权。在游戏行业中,IP产品通常指取得文学、影视、热门游戏授权使用其角色、形象、图像、文字、情节等所制作的游戏产品。游戏IP也就是游戏所拥有的知识产权。

  • 天猫虚拟代言人喵酱

  • 炫舞系列虚拟代言人星瞳