阿里开源模块化数字人对话，最近有想做实时数字人的可以看看了Tavus 发布 SOTA 唇形同步模型 Hummingbir

Tavus 公司最新发布的 Hummingbird-0[1] 是一款 SOTA 唇形同步模型，目前仅在 FAL[2] 上提供 API 作为研究预览使用。

从官推的演示效果来看效果不错，期待开源~

Phantom[3] 是字节跳动开源的一款视频角色一致性生成模型，能够根据参考图像生成保持角色一致性的视频内容，并支持多角色保持。

目前官方已适配 Wan 2.1 模型，有需要的佬们不要错过。

阿里开源了OpenAvatarChat完整数字人系统[4]可在单台PC上流畅运行，平均响应时间仅2.2秒，支持文本、音频、视频等多模态交互。

最近有想做实时数字人的可以看看了，用了非常多的开源项目，不过效果还有提升空间，表情略显呆滞，口型同步也需要进一步优化。

OpenAI 的 Deep Research[5] 现已推出轻量版，由 O4-mini 提供支持，向所有免费用户开放。

LiveCC[6] 是基于 Qwen2-VL-7B 开发的实时视频理解大模型，能够像专业解说员一样快速分析视频内容，并同步生成自然流畅的语音或文字解说。

特别适合需要即时反馈的场景，比如体育赛事直播时自动生成战术分析，或是游戏直播中实时解说。

LiveCC 的代码和相关资源已在 GitHub 和 Hugging Face 上公开，需要的不要错过。