Test-Time Training AI 长视频,生成经典动画《猫和老鼠》测试案例

96 阅读2分钟

Test-Time Training AI 长视频生成技术

2.gif

Test-Time Training (TTT)[2] 技术有效解决了 Transformer 因自注意力机制效率低下导致的长视频生成难题。

研究团队以经典动画《猫和老鼠》为测试案例,对比了 Mamba 2、Gated DeltaNet 等多种基线模型,最终能够生成流畅一致的1分钟动画视频!

目前生成视频仍有瑕疵(可能受限于5B参数)不过AI长视频未来可期。

演示视频是完全由 AI 生成的,一刀未剪,已经非常的强了。

ElevenLabs 发布音频处理 MCP 服务器

1.gif

ElevenLabs 官方正式推出 MCP 服务器,为用户提供强大的云端音频处理能力。允许用户使用 MCP 客户端生成语音、克隆声音、转录音频。

蛮酷的,佬们可以看看官方仓库[1]学一下音频类 MCP 怎么做。

MiniMax Audio 发布 Speech-02:支持 30+ 语言 TTS 模型

3.gif

MiniMax Audio[3] 最新推出了 Speech-02 语音合成模型,单次输入最高支持20万个字符,能够以超高的真实感生成语音,支持超过30种语言,最牛b的地方在于其语言切换时非常流畅。

不过目前只能在官网和api使用,价格为 3.5元/万字符,还是比较贵的。

HiDream-I1 发布:17B 参数开源图像生成模型

HiDream-I1[4] 是一个全新的 17B 参数开放权重生图模型,在各项基准测试中表现优异,甚至超越了 Flux dev 模型。最棒的是,它基于 MIT 开源协议,这意味着你可以完全自由地将其用于商业用途。

佬们可以关注下这个模型,虽然有点大(毕竟 17B 参数摆在那里),但性能确实不错。

想尝鲜的话,官方还提供了在线演示[5]可以体验。

谷歌推出 Gemini Live:支持视频交互

4.gif

谷歌上线了Gemini Live[6] ,能够结合摄像头和屏幕共享功能与 Gemini AI 进行自然的对话交流。

目前该功能已率先在 Pixel 9 和三星 Galaxy S25 系列机型上线(需要订阅服务)。

官方博客还演示了很多使用案例,包括整理建议、教育、购物等等。