Test-Time Training AI 长视频，生成经典动画《猫和老鼠》测试案例Test-Time Training

Test-Time Training (TTT)[2] 技术有效解决了 Transformer 因自注意力机制效率低下导致的长视频生成难题。

研究团队以经典动画《猫和老鼠》为测试案例，对比了 Mamba 2、Gated DeltaNet 等多种基线模型，最终能够生成流畅一致的1分钟动画视频！

目前生成视频仍有瑕疵（可能受限于5B参数）不过AI长视频未来可期。

演示视频是完全由 AI 生成的，一刀未剪，已经非常的强了。

ElevenLabs 官方正式推出 MCP 服务器，为用户提供强大的云端音频处理能力。允许用户使用 MCP 客户端生成语音、克隆声音、转录音频。

蛮酷的，佬们可以看看官方仓库[1]学一下音频类 MCP 怎么做。

MiniMax Audio[3] 最新推出了 Speech-02 语音合成模型，单次输入最高支持20万个字符，能够以超高的真实感生成语音，支持超过30种语言，最牛b的地方在于其语言切换时非常流畅。

不过目前只能在官网和api使用，价格为 3.5元/万字符，还是比较贵的。

HiDream-I1[4] 是一个全新的 17B 参数开放权重生图模型，在各项基准测试中表现优异，甚至超越了 Flux dev 模型。最棒的是，它基于 MIT 开源协议，这意味着你可以完全自由地将其用于商业用途。

佬们可以关注下这个模型，虽然有点大（毕竟 17B 参数摆在那里），但性能确实不错。

想尝鲜的话，官方还提供了在线演示[5]可以体验。

谷歌上线了Gemini Live[6] ，能够结合摄像头和屏幕共享功能与 Gemini AI 进行自然的对话交流。

目前该功能已率先在 Pixel 9 和三星 Galaxy S25 系列机型上线（需要订阅服务）。

官方博客还演示了很多使用案例，包括整理建议、教育、购物等等。