网易伏羲2022年度技术成果回顾——推陈致新·数字孪生

645 阅读21分钟

紫白色人工智能创意互联网宣传微信公众号封面 (1).png

2022 年,网易伏羲实验室迎来了第五个生日。作为一个专业从事游戏与泛娱乐 AI 研究和应用的顶尖研究机构,我们始终在追求创新和探索科学的道路上披荆斩棘、保持初心。

截止今年,网易伏羲已在 NeurIPS、AAAI、ICML、CVPR、IJCAI、SIGIR 等国际人工智能顶会中发表 160 余篇论文,累计获取专利 400 多篇。 并且,网易伏羲今年在全球人工智能计算机视觉领域顶级国际会议 CVPR 2022 中荣膺两项竞赛冠军、在欧洲计算机视觉会议 ECCV2022 中斩获单样本赛道亚军。

网易伏羲在聚焦人工智能技术发展的同时,也将目光转向了实体行业,希望能将游戏中积累的 AI 力量落地在实体领域,由虚向实,通过科技创新为各行业提供提供更多便捷有趣的工作机会,推动产业升级。

接下来,我们将从技术创新、游戏实践、数实融合三个方向分别回顾伏羲实验室在 2022 年的重要科研成就及实践成果。

01 推陈致新,探索 AI 新未来

⽹易伏羲是国内领先的人工智能实验室,在强化学习、图像动作、虚拟⼈、⾃然语⾔、⽤户画像等多个研究方向上成绩斐然。2022 年,网易伏羲在 AI 技术上不断创新,坚持将人工智能赋能游戏产业,力求为人工智能领域创造更多的前沿技术理论与价值成果。

网易伏羲发布首个汉语精标歌声合成开源数据集——Opencpop

今年,网易伏羲联合上海视觉艺术学院、西工大、同济大学、WeNet 社区发布了首个中文精标歌声合成数据集。近年来,随着深度学习在时长建模、声学建模、声码器等语音合成任务上带来的突破性进展,歌声合成也逐渐迈向实用化的阶段,其在虚拟偶像、音乐创作、游戏配乐等场景中崭露出巨大的应用潜力。

在工业界大力发展歌声合成的同时,高质量开源歌声合成数据的短缺把学术界以及资金相对薄弱团体的研究人员拒之门外。为了汇集更多的智慧、推进 AI 音乐技术的普及与发展,首个高质量中文歌声合成数据集 Opencpop 应运而生。open 译为开源、开放,C-pop 是指汉语流行音乐。Opencpop 的诞生致力于降低中文歌声合成研究道路上的数据门槛,为中小型企业、高校、个人等研究者们敞开中文歌声合成研究的大门。

研究者可以通过 Opencpop 做出高质量的 AI 歌曲,一定程度上解决了 AI 歌曲创作成本高、数据贵的问题;帮助中小企业、高校、个人门槛更低的投入 AI 音乐研究。

网易伏羲提出 135 种人脸表情划分标准,荣登 IEEE 官网

网易伏羲提出的《人脸表情 135 种类别划分新标准》,获电气和电子工程师协会(IEEE)旗下情感计算领域顶级期刊《IEEE Transactions on Affective Computing》收录,并受主编邀请在 IEEE 官网正式公布该标准。

这是网易伏羲基于在连续空间表情表征技术的长期创新及沉淀,进一步提出表情划分新标准,穷尽了人类语言对心理状态最大程度的描述集合,将人脸表情细分至 135 种心理状态,这一新标准将大幅提升 AI 对人脸表情识别的精度,极大程度提升人们对表情的认知,也使得机器能够“计算”(感知)由表情所传递的细腻的心理状态,有望在人机交互、艺术表演、医疗诊断、刑侦测谎等领域创新落地。该项工作的顺利推进,得益于伏羲众包平台提供的高效且低成本的数据标注闭环。

目前,网易伏羲提出的人脸表情 135 种类别划分新标准及相关成果,已落地于网易大型互动娱乐游戏场景。未来该研究成果有望应用于人工智能、人机交互、表演学、医学、刑侦学、心理学、行为学、社交学等领域。例如,在基于人工智能的虚拟人领域,表情新标准赋予虚拟角色展现丰富表情的能力,有助于向用户传递更加细腻的内心状态;在人机交互方面,用户表情将成为机器感知用户的一种新的输入方式;在医学方面,表情新标准将成为一种少儿自闭症诊断的量化指标;在表演方面,表情新标准有助于客观评估演员表演效果。

网易伏羲入选信通院首批大模型优秀应用案例

在今年由中国信息通信研究院、人工智能关键技术和应用评测工业和信息化部重点实验室等机构共同发起的 2022 可信 AI 峰会上,组委会公布了“2022 大模型优秀应用案例”名单,网易伏羲实验室「 LOFTER-AI 写文」和「傀儡戏-互动式文字游戏」同时入选“2022 大规模预训练模型优秀应用案例”,在大模型技术及 AI 实践领域再获行业认可,充分展现了网易游戏在人工智能领域的综合技术实力。

网易伏羲实验室通过大模型预训练生成模型参数,以及模型推断等技术手段丰富游戏剧情走向,从而开发出了多人角色扮演文字游戏-傀儡戏。在傀儡戏玩法中,玩家在剧本中扮演不同的角色,然后多个玩家相互协作,通过输入文字,引导剧情的发展,达成剧本预定的游戏目标。语言模型在傀儡戏玩法中起到生成后续剧情和判断游戏目标是否达成的作用。由于语言模型生成文本是随机的,玩家在同一个剧本中每次都会有不同的游戏体验,并且玩家还可以自己编写剧本,整套玩法形成闭环。傀儡戏在《遇见逆水寒》 上线首日,有超过 20%的玩家进行体验并给予良好反馈,游戏的用户黏性和日活跃用户数也因此均提升 10%。

AI 写文使用了和傀儡戏相同的预训练模型和类似的后处理和排序策略,并且使用了 EET 加速引擎进行服务部署。相比于傀儡戏,AI 写文的最大的技术挑战在于文本生成长度。对用户的每个输入,模型要生成 400 字的故事。为了保证生成效果,我们采用分段式生成方法,先生成两百字进行处理和排序,然后选择最优结果生成剩余 200 字。我们通过产品进一步规避 AI 算法的弱点,后两百字一次返回 3 个结果,让玩家去挑选。在使用了基于大模型的 AI 故事创作之后,累计 50 多万用户参与了 AI 写文活动,累计生成故事次数 400 多万,累计生成 33 亿字。在活动中,超过 20 万以上之前近一个月没有创作过故事内容的用户参与了 AI 创作活动,丰富了网易 LOFTER 社区的内容,极大推动了优质内容的创作。

02 厚积薄发,AI 点亮游戏未来

回顾 2022 年,我们在 AI 道路上深耕科研、持续创新,致力将技术成果应用在更多游戏场景中。技术成果及解决⽅案涵盖游戏设计、研发、测试和运营等多个环节,通过科研进步持续助推游戏行业的发展。

伏羲 AI 竞技机器人五天击败《永劫无间》玩家上亿次

2022 年十一假期期间,网易旗下国产端游《永劫无间》上线了一位“新员工”——噩梦 AI,在短短五天内便击败玩家上亿次,超前完成了业绩指标。此次噩梦人机模式背后是网易伏羲实验室结合深度神经网络及强化学习方法的一次成功实践。

传统的游戏机器人曾在福利局、人机模式等玩法中扮演了重要的角色,对于游戏运营者来说简单、易用,但机器人所能达到的水平上限不高,随着玩家游戏水平的逐渐提升,初始版本的游戏机器人已经跟不上玩家的需求。《永劫无间》中伏羲 AI 与普通机器人相比,在寻路效率、战斗博弈水平、迂回作战能力方面均有提升,它的背后是深度神经网络与强化学习方法。网易伏羲通过设定游戏目标,让 AI 之间进行自我对弈训练,噩梦 AI 成为了一个游戏超级高手:不但各种高级操作与连招信手拈来,还能表现出像人一样的欲擒故纵,声东击西等计谋。

永劫无间利用伏羲 AI 机器人设计的噩梦玩法吸引了众多玩家进行挑战,在短时间内促进了玩家的人机模式挑战局数与游戏活跃度。永劫无间使用的伏羲 AI 竞技机器人代表了未来游戏的一个发展方向——拥抱新一代人工智能技术。 目前,伏羲强化学习领域的研究者们已经在相当多的场景,特别是游戏场景中实现了匹敌甚至超越人类专家水平的 AI,而强化学习也被认为是实现更通用、更广泛、更高级的机器智能的重要技术手段之一。另外,从技术的角度来讲一定是先进生产力取代落后生产力,不单是《永劫无间》,网易大多数游戏项目组也都在积极拥抱新一代人工智能技术,实现伏羲对战 AI 的一个应用,这是一个让人兴奋的趋势。

网易伏羲携手逆水寒手游,构建开放 NPC 世界

在角色扮演类游戏中,除了壮丽的风景、奇妙的探险、动人的故事、精彩的战斗,也一定需要形形色色的 NPC,让整个世界充满生机。网易重磅新游《逆水寒手游》正是构建了这样一个拥有海量 NPC 的开放世界。

在这个开放世界中的 NPC 情感细腻、反应灵敏,远远超出了传统游戏中 NPC 的智能程度。他们是由网易伏羲与《逆水寒手游》深入合作打造新一代智能 NPC,旨在为用户创造前所未有的交互体验。基于网易伏羲人工智能的加持,游戏中成千上万的 NPC 将有自己的身份、背景、性格、记忆、目标等等,他们会对玩家的几乎所有行为进行响应和反馈,产生数百万、千万级别的、靠堆人力完全无法匹配的游戏内容量。 NPC 不只是预设好的程序与代码,更是通过人工智能来产生“情感”,让玩家与 NPC 共同维系江湖的人情世故网。

当用户需要“去搞定一个 NPC”以达成某个任务目标时,他面对的不再是一个个固定编排好的对话选项,而是真正地去和这个 NPC 对话聊天、高度自由的文互动。为了能达成目标,可能需要揣摩 NPC 的爱好、行为动机、社会背景等等,化身“谈判专家”、“聊天达人”,通过各种尝试,若能相聊甚欢,不仅能完成任务目标,NPC 甚至再送一本家传的武功秘籍也不无可能。将智能 NPC 与游戏的各种机制玩法相结合,又将产生无限量丰富的游戏内容,实现真正的高度自由开放。

情感可控 TTS,为 NPC 注入情感元素

越来越多的游戏公司开始重视起 AI 语音在游戏中的应用价值。和其他应用场景不同的是,游戏对于音频表现力有着更高的要求,也对 AI 语音技术提出了更高的挑战。

在《逆水寒手游》的智能 NPC 中,网易伏羲联合游戏制作团队创新性地应用了情感可控的语音合成技术。让智能 NPC 不仅仅是没有感情的机器人,而是可以实时地根据表达的需要,表达出人类所具有的多种语音情绪。这也给玩家带来了更加真实、鲜活的对话体验。和情感可控同样重要的还有语音的个性化、拟人化和风格化等,在《逆水寒手游》的应用中,均可以看到伏羲 AI 语音的最新进展,我们力争让 AI 语音像真人一样会笑、会哭泣。

除了持续精进个性化语音合成的表现力外,网易伏羲还将持续推动语音转换技术、AI 音乐生成技术在游戏语音内容生成、玩法创新、实时游戏语音交互等方向完成创新应用。

攻坚人脸 4D 扫描技术,打造电影画质

近日,网游圈一条《武林旧事·叶雪青》的演示视频引起了不少玩家的转发与讨论。视频画面细节精美、微表情堪比真人的背后,是《逆水寒手游》团队联合网易伏羲实验室、仓颉动画中心、雷火 3D 扫描实验室,齐力攻坚业界难题,将最顶级、最前沿的人脸 4D 扫描技术实装在了这位雪青师姐的身上。

人脸 4D 扫描技术是基于传统 3D 扫描技术的一种时序拓展,它能更精准地捕捉人脸每一帧的变化,收获比过去更加逼近真实人脸的表情效果。对于复杂的角色建模来说,从人脸到数据、从数据到建模、从建模到游戏,每一个过程都有着不同的难点与挑战。

基于此,逆水寒工作室与网易伏羲实验室联合兄弟部门共同研发了**「扫描重建过程」、「同拓扑过程」、「拟合绑定过程」**,以保证演员的表演最终能在游戏中高保真呈现。

  • 拿**「扫描重建过程」**来说,在人脸到数据阶段,4D 扫描将原来的单次曝光变成了连续拍摄,46 台相机每秒协同曝光 50 次,以 3D 扫描 50 倍的数据量,串联成每秒 50 帧的 3D 模型序列——这种数据量下呈现模型精度,能有多真实可想而知。

  • 而**「同拓扑过程」**,则是为了在数据转换为建模阶段,保证所有表情动作在迁移过程高度精准,完美还原真人微表情——这必须通过大量复杂的图像算法工作,确保“面部任一细节的模型顶点索引在建模中完全一致”,在海量的数据计算中,不能有一点差池!

  • 而**「拟合绑定过程」**相对更好理解一点,通俗一点讲就是“极限压缩”,将上述过程后庞大的数据压缩从而适配到游戏中——基于游戏内的面部绑定系统,利用高精度 AI 表情迁移算法,对 3D 模型序列进行 rig 参数拟合,形成高还原度且数据量小的 rig 动画参数。

在三大核心流程的基础上,结合丰富的动态数据,算法和人工协作处理……最终呈现的,便是上面图片中,堪比真人实机拍摄的师姐了。

AI 表情合成技术,快速生成角色口型

RPG 游戏中通常有大量剧情对话场景,其中每个角色都需要配上和说话内容相符的口型和表情。以《逆水寒》为例,仅 930 盲盒测试中,就已经放出了几十万条剧情文本,该数量还在大量持续增加,而这些表情动画靠美术手 K 是不现实的。

网易伏羲提供的 AI 表情合成技术,能够根据剧情对话的文本和语音内容,快速生成相应的表情和口型。结合深度学习技术和音素,设计出的口型预测算法,在口型的准确性和流畅性上都有显著的提升,贴近真人在不同类型发音下的真实表现。表情合成模块能够识别文本和语音情感,并为虚拟角色生成符合目标情绪的表情,生成的表情情感细腻,表现自然。

此外,在游戏出海的大背景下,很多游戏都面临着出海时,多语音版本的问题。以《永劫无间》为例,有中、英、日、韩 4 语版本,因为各语种口型动画不可复用,所以有着大量的重复性美术工作。基于伏羲 AI 表情合成技术,快速为其所有英雄生产了英、日、韩三语的口型动画资源,使其他语言版本,均能有和语种匹配的口型动画,将艺术家们从重复性工作中解放出来。此外,伏羲 AI 表情合成能够做到实时生成,未来还将在游戏内容实时生成中,不断发挥价值。

03 数字孪生,由虚向实赋能万千产业

十四五”规划明确指出:大力发展数字经济、提升工业互联网应用的普及率、加快企业数字化转型升级将是未来经济发展的重要方向。当前大数据、5G、人工智能、云计算等新兴技术方兴未艾;国内人口逐渐出现老龄化趋势,传统企业面临用工难题。如何将科技创新与产业实践相结合,网易伏羲也交出了它的答卷。

网易瑶台智能捏脸,元宇宙形象持续升级

捏脸系统当下已成为元宇宙应用的标配,用户通过捏脸系统制作一个和自己样貌相似的第二化身,让自己在虚拟世界中更具有沉浸感和代入感。

网易瑶台是网易伏羲旗下沉浸式活动平台,2022 年,网易瑶台推出全新捏脸系统,依托于 AI 技术,实现智能捏脸功能。用户仅需上传单张个人形象照片,系统就能识别照片中人物的脸型、眉形、眼睛、鼻子、嘴巴,低成本、快速地渲染出相似度极高的虚拟形象。除了可以识别面部五官外,智能捏脸还支持识别用户的肤色和发型,并还原到虚拟世界中。瑶台面向的用户范围非常广,涵盖多个年龄段和不同人种,这些能力能帮助用户生成更具个人特征的角色

在实际使用智能捏脸的过程中,许多用户无法提供标准的正脸无表情照片,或者并没有意识要提供这样的照片,使得捏脸效果不尽如人意。针对此现象,网易瑶台智能捏脸进行了一大创新,即实现了人脸 ID 与头部姿态的解耦,解决了大姿态捏脸中的一系列问题,包括人脸对齐效果差、头部姿态估计不准、人脸检测精度低等问题,使得侧脸带表情的照片也能保证基础的捏脸相似度和美观度,大大提升智能捏脸的应用场景,降低用户使用门槛。

网易伏羲挖掘机器人首次曝光,与中建八局达成战略合作

今年 9 月,网易伏羲挖掘机器人首次对外亮相。网易伏羲挖掘机器人是首次将人工智能、游戏化交互、游戏仿真、低延时音视频传输、众包运营等技术迁移到工程机械领域的应用,标志着网易游戏技术赋能实体产业的又一成果落地,也意味着游戏技术在推动传统产业数字转型的同时,正在成为加速数实融合的重要支撑。

并且,网易伏羲挖掘机器人于今年 12 月与中建八局签订战略合作,双方将利用各自强有力的研发能力、产业规划及市场规模,共同推进数字化和智能化工程机械领域的深入合作,推动其落地应用。目前,网易伏羲与中建八局联合研发的挖掘机器人,正在四川理塘参与西南重点基建项目建设,这也是全球首台登陆高原作业的无人挖掘机。通过手柄、电脑远程遥控,无人驾驶的挖掘机可以在零下二十度、4000 米海拔的低温缺氧环境中作业。网易公司 CEO 丁磊表示,网易将利用自身的科技积累,为越来越多的机械设备安装“数字心脏”,和中建八局一起扩展更多更广的数实融合场景,实现一人操控上百台机器。

网易伏羲发布有灵机器人,人机协作模式助推产业智能升级

2022 年底网易伏羲正式发布有灵机器人,这是是网易伏羲推出的人机协作线上任务平台,支持用户快速建模、发布和运营可由机器与人协作完成的任务。

AOP(Agent-Oriented-Programming,面向智能体编程)是网易伏羲基于 MDP(Markov Decision Processes,马尔可夫决策过程)/POMDP(Partially Observable Markov Decision Process,部分可观察马尔可夫决策过程)等思想设计的一套全新的编程范式,其核心价值在于为对接机器(或 AI)和人工提供了统一的规范接口和服务。

平台以 AOP 为核心,包括低代码、众包、AI 能力系统和智能云引擎(AI Cloud Engine,ACE)四部分,B 端用户可以通过低代码可视化编辑高效定义和发布任务,C 端用户可以通过众包领取并线上执行任务。此外平台自动实现数据闭环,人工操作数据将反哺 AI 算法,推动 AI 和机器更加智能,而整个任务和智能体都运行在 ACE 上,在未来可以为用户打造一个现实世界的孪生数字世界。

网易伏羲基于在游戏领域中积累的强化学习,用户画像,自然语言处理和图形图像等智能化场景的技术应用实践,将任务场景数字化、智能化,通过数字孪生构建云端虚拟任务。针对复杂决策场景,任务可以由机器执行的同时,也可以无缝与人来协作完成;人类可以通过远程交互完成操作,机器同步模仿学习、提升决策智能度。

结语

新的一年即将来临,网易伏羲依旧会秉持初心,持续深耕技术、砥砺前行;在技术创新与实践的同时,致力于用 AI 技术更好地满足人们生产劳动的需求,将科技与实体行业深度融合,推动人工智能技术服务于更广阔的应用场景,激发 AI 更多潜力。

万千热爱,我们初心不改。