Hedra 推出 Character-3:多模态 AI 数字人视频生成模型
Character-3 是由 Hedra 开发的一个 AI 数字人视频生成模型。它能够同时处理多种输入类型,包括图像、文本和音频,并通过联合推理生成更高质量的视频。
这一代在头部和身体协调性方面进步不错,英文效果非常出色,但中文语音口型对齐的效果还有待提升。
佬可以在 Hedra Studio[3] 上使用 Character-3,每月免费获得 400 积分。订阅服务分为多个档次,最低档为 10 美元提供 1000 积分,最高档为 75 美元提供 11000 积分,价格还是不便宜啊。
硅基智能推出 HeyGen 开源替代品:HeyGem
HeyGem 是硅基智能推出的全离线数字人合成工具,支持通过文字和语音驱动数字人形象。提供了从安装 Docker 到启动的详细教程。
目前放出的代码只开源了前端部分[1],最核心依赖的3个 Docker 镜像并未开源。
LanPaint:推理版局部重绘技术
LanPaint[2] 是一种创新的推理版局部重绘技术,它通过在去噪(denoising)前进行多次迭代“思考”,实现了更精确和自然的图像重绘效果。
在 ComfyUI 中使用 LanPaint 非常简单,只需将默认的 KSampler 替换为 LanPaint 的节点即可,有需要的佬们可以试试看。
LumaAI 推出 Ray 2:速度提升 3 倍,价格降低 3 倍的视频生成模型
Ray 2[4]是由 LumaAI 最新推出的一款视频生成模型,号称速度比前代快 3 倍,价格便宜 3 倍。
该模型支持生成最长 10 秒的视频片段,分辨率可达 720p 或 1080p。支持文生视频、图生视频、音频和控制能力,从官方的演示来看,效果非常不错。
价格方面,一段 5 秒 24 帧的 720p 视频需要 0.8 美元。
谷歌发布 Gemini Embedding 模型
Gemini Embedding[5] 是谷歌最近推出的一个实验性嵌入模型(gemini-embedding-exp-03-07),通过 Gemini API 提供服务,该模型在多语言文本嵌入基准测试(MTEB)排行榜上排名第一,超越了之前的 text-embedding-004 模型。
Gemini Embedding 支持长达 8K token 的输入,能够嵌入更长的文本、代码或其他数据,输出维度为 3K,几乎是之前 Embedding 模型的四倍。
更多信息可去看官方博客
快手可灵 AI 推出全新 AI Effects:FuzzyFuzzy、MochiMochi 和 BoomBoom
可灵 AI[6] 也推出了类似 Pika 的 AI Effects,Web 和 App 现已上线 FuzzyFuzzy、MochiMochi 和 BoomBoom 三种特效。
国内版本也同步上线了,分别命名为:FuzzyFuzzy(快来惹毛我)、MochiMochi(捏捏乐)和 BoomBoom(万物膨胀)。