AI 数字人,从最开始的「一眼假」,到现在基本分辨不出真假,随着 AI 数字人技术越来越成熟,AI 数字人的应用也越来越广泛了。
比如数字人带货、数字人直播,用数字人讲课、做培训,还有很多电视台现在也开始用数字人进行新闻播报了。
之前分享了几款 AI 数字人工具,也收到了不少读者的反馈。
发现大家除了关心克隆效果,价格永远是不可逃避的一环:“收费吗?有没有免费的? ”
现在市面上大部分 AI 数字人工具,基本都是收费的。比如 HeyGen,基础版每月 $29,也才能生成 30 分钟的视频:
有些 AI 数字人工具是会送免费额度的。但额度用完,就需要付费使用了。
想完全免费使用数字人,还得是开源项目!
今天就分享两个可以让大家「实现数字人自由」的开源项目——HeyGem 和 DUIX。
如果大家觉得部署有难度,在最后,也提供了在线使用方式,可以直接体验。
一、AI 数字人界的 DeepSeek
HeyGem 和 DUIX,是南京硅基智能旗下两大开源项目。
硅基智能,很多人应该不陌生。当年让全国为之惊叹的刘润的数字人分身,就是由硅基智能开发的。
而前不久硅基智能开源的 HeyGem 和 DUIX,可以说是 AI 数字人界的 DeepSeek,一经开源便引发全球开发者热议。
全球再一次被中国的 AI 开源力量震撼!
目前这两个开源项目在 GitHub 已经有 14.5k 星标。HeyGem 更是在开源两周内,就在 Github 狂揽 4.2k 星标,登上 Trending 榜单。
中国 AI 数字人技术因此首次以开源姿态跻身国际视野前沿,这也预示着数字人技术正从封闭实验室迈向普惠应用的关键拐点。
在了解一番后,我觉得 HeyGem 和 DUIX 不管是在技术还是在多元场景的应用上,都称得上「硬核」,值得被更多人看见。
下面一起来看下,这两项开源技术 HeyGem 和 DUIX 在技术上的亮点以及在多元场景上的应用上。
二、HeyGem 技术细节
HeyGem,是一款完全离线视频合成工具。HeyGem 的核心魔力在于:
用户仅需提供 1 秒的视频片段,HeyGem 便能在短短 30 秒内,完成虚拟形象与声音的精准克隆。
核心功能
精准克隆
- 外貌克隆:AI 高精度捕捉面部特征,构建逼真虚拟形象。
- 声音克隆:支持多种语音参数设置,复刻真实人声细节。
驱动方式
- 文本驱动:自然语言处理技术,将文字转为语音并驱动数字人。
- 语音驱动:根据语调、节奏生成对应口型和动作。
高效视频合成
- 唇音同步优化,实现自然流畅的视听效果。(即使在表情丰富、动作复杂的场景下,系统依然保持精准的唇形同步和自然表情输出,推理效率达到惊人的 1:0.5 比例)
- 支持 8 种语言(中、英、日、韩、法、德、阿拉伯、西班牙语)。
关键优势
- 完全离线:无需联网,保障隐私安全,避免数据泄露风险。
- 操作友好:界面简洁,新手可快速上手。
- 多模型支持:支持导入和管理多个模型,适应不同创作需求。
技术支撑
- 语音克隆:基于 AI 生成与样本高度相似的语音(包括语调、语速)。
- 语音识别(ASR) :将人类语音转为可读文本,使计算机“理解”指令。
- 计算机视觉:用于面部识别、唇形分析,确保口型与语音同步。
HeyGem 完全开源,大家可以部署到本地免费使用,这大大降低了数字人的使用门槛。
而且官方也提供了一键安装包,也大大降低了部署难度。
目前 HeyGem 支持 Windows 和 Ubuntu 版本的部署,Mac 和 Linux 版也即将支持,可以期待一下。
大家如果想在 Windows 上部署的话,可以看下硬件配置要求。
Windows 配置要求:
其他依赖以及详细的安装步骤,大家可以在 HeyGem Github 上查看。
HeyGem Github 地址:
三、DUIX 技术细节
如果说 HeyGem 解决了数字人“长什么样”的问题,那么 DUIX 则回答了“怎么互动”的挑战。
DUIX(Dialogue User Interface System),对话式用户界面系统,提供云端 / 边缘实时交互、数字人视频生成、克隆与定制的一站式解决方案,实现“能听、能看、能说、能懂”的智能人机交互。
DUIX-Mobile 通过开源与低门槛技术,赋能开发者构建高拟真、低延迟的移动端数字人应用,推动智能交互在垂直领域的规模化落地。
核心功能
DUIX 提供移动端实时数字人交互解决方案,支持开发者灵活集成自有 / 第三方大语言模型(LLM) 、语音识别(ASR) 、语音合成(TTS) 技术。
DUIX 支持跨平台一键部署(Android / iOS),开发者只需编写三行代码,即可调用完整交互功能,技术门槛极低。
可以快速构建适用于智能客服、虚拟律师 / 医生、AI 移动助手等场景的个性化数字人。
关键特性
- 类人 AI:模拟人类表情、语调与共情能力,提升交互真实感。
- 超快响应:交互延迟 <1.5 秒,保障对话流畅性。
- 高效部署:低资源占用,支持手机、智能屏等设备快速部署。
- 轻网络设计:本地化处理减少网络依赖,适配金融、政务、法律等隐私敏感场景。
- 通用适配性:模块化架构支持灵活定制数字人形象与场景,覆盖全行业需求。
DUIX Github 地址:
四、多元场景应用
在内容创作领域,数字人短视频及直播带货大幅降低内容生产成本。
视频来自硅基智能官方示例
在交互类应用场景中,比如和虚拟女友对话等功能,也受到越来越多的用户的喜爱。
流利自然的表达,让我们觉得 AI 不再是一个冷冰冰的工具,而是一个能懂你、能敏锐感知你情绪的亲密陪伴。
在政务服务方面,AI 公务员、AI 医疗助手已开始在多地试点,为市民提供 24 小时不间断的咨询服务。
视频来自硅基智能官方示例
在公共服务场景中,数字人已走向车站大厅、银行前台与社区服务中心,为市民提供引导、业务咨询与信息查询等功能。
还有在很多垂直行业中,比如教育培训、医疗健康、金融服务、汽车行业等领域,AI 数字人的应用也越来越广泛。
四、写在最后
真正具有颠覆性的技术终将走向普惠。
硅基智能的 HeyGem 和 DUIX 强势开源,让「技术平权」不再是一句口号。
对开发者而言,参与 HeyGem 与 DUIX 的开源生态有多种路径。
可通过 GitHub 获取完整源码,进行本地部署与二次开发;也可借助 duix.com 提供的商业 API 服务,快速体验产品功能,无需复杂环境配置。
对于有自主创新需求但部署经验有限的技术团队,可优先在 GitHub 平台了解项目架构与功能特点,再根据实际需求决定是自行部署还是使用官方 API。
如果觉得本地部署难度较大,可直接登录 duix.com 立即体验成熟服务。
最后,附上 HeyGem 和 DUIX 的相关网址。
HeyGem Github 地址:
DUIX Github 地址:
在线体验:
往期文章
2024年终AI工具汇总:9大AI领域,70+精选AI工具,全都在这了!(建议收藏)
更多 AI 工具,见【AI工具】专栏。