国产AI又出王炸,AI数字人界的DeepSeek,开源数字人破万星标引爆GitHub,比HeyGen狠10倍!(附体验方式)

0 阅读7分钟

AI 数字人,从最开始的「一眼假」,到现在基本分辨不出真假,随着 AI 数字人技术越来越成熟,AI 数字人的应用也越来越广泛了。

比如数字人带货、数字人直播,用数字人讲课、做培训,还有很多电视台现在也开始用数字人进行新闻播报了。

之前分享了几款 AI 数字人工具,也收到了不少读者的反馈。

发现大家除了关心克隆效果,价格永远是不可逃避的一环:“收费吗?有没有免费的?

现在市面上大部分 AI 数字人工具,基本都是收费的。比如 HeyGen,基础版每月 $29,也才能生成 30 分钟的视频:

图片

有些 AI 数字人工具是会送免费额度的。但额度用完,就需要付费使用了。

想完全免费使用数字人,还得是开源项目!

今天就分享两个可以让大家「实现数字人自由」的开源项目——HeyGem 和 DUIX

如果大家觉得部署有难度,在最后,也提供了在线使用方式,可以直接体验。

一、AI 数字人界的 DeepSeek

HeyGem 和 DUIX,是南京硅基智能旗下两大开源项目。

硅基智能,很多人应该不陌生。当年让全国为之惊叹的刘润的数字人分身,就是由硅基智能开发的。

图片

而前不久硅基智能开源的 HeyGem 和 DUIX,可以说是 AI 数字人界的 DeepSeek,一经开源便引发全球开发者热议。

全球再一次被中国的 AI 开源力量震撼!

目前这两个开源项目在 GitHub 已经有 14.5k 星标。HeyGem 更是在开源两周内,就在 Github 狂揽 4.2k 星标,登上 Trending 榜单。

图片

图片

中国 AI 数字人技术因此首次以开源姿态跻身国际视野前沿,这也预示着数字人技术正从封闭实验室迈向普惠应用的关键拐点。

在了解一番后,我觉得 HeyGem 和 DUIX 不管是在技术还是在多元场景的应用上,都称得上「硬核」,值得被更多人看见。

下面一起来看下,这两项开源技术 HeyGem 和 DUIX 在技术上的亮点以及在多元场景上的应用上。

二、HeyGem 技术细节

图片

HeyGem,是一款完全离线视频合成工具。HeyGem 的核心魔力在于:

用户仅需提供 1 秒的视频片段,HeyGem 便能在短短 30 秒内,完成虚拟形象与声音的精准克隆。

核心功能

精准克隆

  • 外貌克隆:AI 高精度捕捉面部特征,构建逼真虚拟形象。
  • 声音克隆:支持多种语音参数设置,复刻真实人声细节。

驱动方式

  • 文本驱动:自然语言处理技术,将文字转为语音并驱动数字人。
  • 语音驱动:根据语调、节奏生成对应口型和动作。

高效视频合成

  • 唇音同步优化,实现自然流畅的视听效果。(即使在表情丰富、动作复杂的场景下,系统依然保持精准的唇形同步和自然表情输出,推理效率达到惊人的 1:0.5 比例)
  • 支持 8 种语言(中、英、日、韩、法、德、阿拉伯、西班牙语)。

关键优势

  • 完全离线:无需联网,保障隐私安全,避免数据泄露风险。
  • 操作友好:界面简洁,新手可快速上手。
  • 多模型支持:支持导入和管理多个模型,适应不同创作需求。

技术支撑

  • 语音克隆:基于 AI 生成与样本高度相似的语音(包括语调、语速)。
  • 语音识别(ASR :将人类语音转为可读文本,使计算机“理解”指令。
  • 计算机视觉:用于面部识别、唇形分析,确保口型与语音同步。

HeyGem 完全开源,大家可以部署到本地免费使用,这大大降低了数字人的使用门槛。

而且官方也提供了一键安装包,也大大降低了部署难度。

目前 HeyGem 支持 Windows 和 Ubuntu 版本的部署,Mac 和 Linux 版也即将支持,可以期待一下。

大家如果想在 Windows 上部署的话,可以看下硬件配置要求。

Windows 配置要求:

图片

其他依赖以及详细的安装步骤,大家可以在 HeyGem Github 上查看。

图片

HeyGem Github 地址

github.com/duixcom/Dui…

三、DUIX 技术细节

图片

如果说 HeyGem 解决了数字人“长什么样”的问题,那么 DUIX 则回答了“怎么互动”的挑战。

DUIX(Dialogue User Interface System),对话式用户界面系统,提供云端 / 边缘实时交互数字人视频生成克隆与定制的一站式解决方案,实现“能听、能看、能说、能懂”的智能人机交互。

DUIX-Mobile 通过开源与低门槛技术,赋能开发者构建高拟真、低延迟的移动端数字人应用,推动智能交互在垂直领域的规模化落地。

核心功能

DUIX 提供移动端实时数字人交互解决方案,支持开发者灵活集成自有 / 第三方大语言模型(LLM)语音识别(ASR语音合成(TTS  技术。

DUIX 支持跨平台一键部署(Android / iOS),开发者只需编写三行代码,即可调用完整交互功能,技术门槛极低。

可以快速构建适用于智能客服、虚拟律师 / 医生、AI 移动助手等场景的个性化数字人。

关键特性

  • 类人 AI:模拟人类表情、语调与共情能力,提升交互真实感。
  • 超快响应:交互延迟 <1.5 秒,保障对话流畅性。
  • 高效部署:低资源占用,支持手机、智能屏等设备快速部署。
  • 轻网络设计:本地化处理减少网络依赖,适配金融、政务、法律等隐私敏感场景。
  • 通用适配性:模块化架构支持灵活定制数字人形象与场景,覆盖全行业需求。

DUIX Github 地址

github.com/duixcom/Dui…

四、多元场景应用

在内容创作领域,数字人短视频及直播带货大幅降低内容生产成本。

硅基智能-1.gif

视频来自硅基智能官方示例

在交互类应用场景中,比如和虚拟女友对话等功能,也受到越来越多的用户的喜爱。

流利自然的表达,让我们觉得 AI 不再是一个冷冰冰的工具,而是一个能懂你、能敏锐感知你情绪的亲密陪伴。

虚拟女友.gif

在政务服务方面,AI 公务员、AI 医疗助手已开始在多地试点,为市民提供 24 小时不间断的咨询服务。

AI公务员.gif

视频来自硅基智能官方示例

在公共服务场景中,数字人已走向车站大厅、银行前台与社区服务中心,为市民提供引导、业务咨询与信息查询等功能。

还有在很多垂直行业中,比如教育培训、医疗健康、金融服务、汽车行业等领域,AI 数字人的应用也越来越广泛。

四、写在最后

真正具有颠覆性的技术终将走向普惠。

硅基智能的 HeyGem 和 DUIX 强势开源,让「技术平权」不再是一句口号。

对开发者而言,参与 HeyGem 与 DUIX 的开源生态有多种路径。

可通过 GitHub 获取完整源码,进行本地部署与二次开发;也可借助 duix.com 提供的商业 API 服务,快速体验产品功能,无需复杂环境配置。

对于有自主创新需求但部署经验有限的技术团队,可优先在 GitHub 平台了解项目架构与功能特点,再根据实际需求决定是自行部署还是使用官方 API。

如果觉得本地部署难度较大,可直接登录 duix.com 立即体验成熟服务。

图片

图片

最后,附上 HeyGem 和 DUIX 的相关网址。

HeyGem Github 地址

github.com/duixcom/Dui…

DUIX Github 地址

github.com/duixcom/Dui…

在线体验:

duix.com/


往期文章

2024年终AI工具汇总:9大AI领域,70+精选AI工具,全都在这了!(建议收藏)

更多 AI 工具,见【AI工具】专栏。