项目目标
针对现有人工智能数字化教学平台存在的问题。本项目通过构建高效的人脸视频生成网络,提升人工智能教学的生动感。结合文本语音生成网络,实现对话答疑功能和不同音色的合成,满足不同数字人教师的声音需求。最后通过合理模型构建人物动作生成网络,满足不同情况下的动作教学需求。以此推动课程教学数字化和信息化的进程。人脸生成、虚拟答疑和动作教学功能将被集成到一个平台中,提供无缝切换和一体化用户体验,构建一个高效、互动的辅助教学环境。各部分功能将设计为轻量级网络,以降低硬件部署门槛和使用成本,并通过优化算法提供高质量的服务,打造更加逼真的数字人。支持用户通过文本、声音、视频等多模态信息输入,以创造个性化的虚拟人体验。本项目将推动数字教育领域的发展,促进资源共享,提升教育质量,为用户创造一个综合性、一站式的智慧教育体验。
技术架构
本项目调研了众多的开源生成式人工智能模型,在比较了效果与开发平台兼容性等各种因素后,最终选择了如上图所示的技术架构。这些AIGC模型在独立运作的时候效果都是十分不错的,然而本项目的难点就在于将这些项目融合到一个平台中,最终通过一个数字人个体展现所有模型协同运作的能力。
就让我们从数字人人物形象的技术入手,无论是3d建模还是2d建模,相信大家在各种直播平台以及互联网大厂提供的解决方案中都见过不少了。应该不难发现,现在用的最多的数字人建模方案就是真人复刻。真人复刻的数字人并没有mash形式的3d建模,可以简单理解为靠模型计算有规律地扭曲一张图片的像素,也就是神经辐射场。这种方法虽然听起来很low很不靠谱,但是在效果上还是过得去的。当然最重要的是,通过这种方面模拟面部表情以及唇形地运动,成本比做真正地3D动画要低多了。
当然,从我个人的角度出发,这种真人复刻的效果远称不上逼真,甚至还有一点恐怖谷效应。所以除了真人复刻的技术外,我也采用了备用的live-2d的建模方案。这种数字人形象还是更加能让我接受一点。
数字人的人物形象有了,那么是什么驱动他们的运动呢?数字人不是只会做一些预设的运动,他的主要运动集中在脸部表情的变化和唇形的变化。也就是说是靠内容和音频驱动的。对于文本转音频的模型,本项目使用的是GPTsovit,这个模型应该是市面上效果最好的开源模型了。不仅支持音频克隆,声线语气也是十分逼真。更提供了流式传输等完整的api调用功能。
至于数字人的逻辑核心,也就是大语言模型,这块技术内容我将在下一篇文章中和界面的设计一起详细说明。