多模态 AI 数字人视频生成模型Hedra 推出 Character-3：多模态 AI 数字人视频生成模型 Charac

Character-3 是由 Hedra 开发的一个 AI 数字人视频生成模型。它能够同时处理多种输入类型，包括图像、文本和音频，并通过联合推理生成更高质量的视频。

这一代在头部和身体协调性方面进步不错，英文效果非常出色，但中文语音口型对齐的效果还有待提升。

佬可以在 Hedra Studio[3] 上使用 Character-3，每月免费获得 400 积分。订阅服务分为多个档次，最低档为 10 美元提供 1000 积分，最高档为 75 美元提供 11000 积分，价格还是不便宜啊。

HeyGem 是硅基智能推出的全离线数字人合成工具，支持通过文字和语音驱动数字人形象。提供了从安装 Docker 到启动的详细教程。

目前放出的代码只开源了前端部分[1]，最核心依赖的3个 Docker 镜像并未开源。

LanPaint[2] 是一种创新的推理版局部重绘技术，它通过在去噪（denoising）前进行多次迭代“思考”，实现了更精确和自然的图像重绘效果。

在 ComfyUI 中使用 LanPaint 非常简单，只需将默认的 KSampler 替换为 LanPaint 的节点即可，有需要的佬们可以试试看。

Ray 2[4]是由 LumaAI 最新推出的一款视频生成模型，号称速度比前代快 3 倍，价格便宜 3 倍。

该模型支持生成最长 10 秒的视频片段，分辨率可达 720p 或 1080p。支持文生视频、图生视频、音频和控制能力，从官方的演示来看，效果非常不错。

价格方面，一段 5 秒 24 帧的 720p 视频需要 0.8 美元。

Gemini Embedding[5] 是谷歌最近推出的一个实验性嵌入模型（gemini-embedding-exp-03-07），通过 Gemini API 提供服务，该模型在多语言文本嵌入基准测试（MTEB）排行榜上排名第一，超越了之前的 text-embedding-004 模型。

Gemini Embedding 支持长达 8K token 的输入，能够嵌入更长的文本、代码或其他数据，输出维度为 3K，几乎是之前 Embedding 模型的四倍。

更多信息可去看官方博客

可灵 AI[6] 也推出了类似 Pika 的 AI Effects，Web 和 App 现已上线 FuzzyFuzzy、MochiMochi 和 BoomBoom 三种特效。

国内版本也同步上线了，分别命名为：FuzzyFuzzy（快来惹毛我）、MochiMochi（捏捏乐）和 BoomBoom（万物膨胀）。