开源的单图跳舞视频生成技术:StableAnimator

269 阅读2分钟

StableAnimator:开源的单图跳舞视频生成技术

1.gif

StableAnimator[1] 是一种基于单张图片生成跳舞视频的技术。通过输入一张参考图片和一个姿势视频,StableAnimator 能够合成高质量的视频,并保持人物身份的一致性。这又是一个类似 Animate Anyone 的技术,代码完全开源,有兴趣的可以关注下。

OneDiffusion:功能强大的生图模型正式开源

OneDiffusion[2] 是一个之前介绍过的多功能生图模型,其能力非常强大,支持文生图、ID 一致性、单图生多视角、文生多视角等多种功能。现在已经可以在 GitHub[3] 上访问源码了,推荐你们都看看!

谷歌推出 Gemini 2.0 Flash Experimental:性能翻倍,多模态输出更强大

Gemini 2.0 Flash Experimental[4],这款模型不仅在性能上超越了 1.5 Pro,速度更是其两倍, 大模型竞技场中排名第三,并实现了原生图片和音频的多模态输出。

在性能方面,Gemini 2.0 Flash 改进了多模态、文本、代码、视频、空间理解和推理性能。

输出方面,支持生成包括文本、音频和图像,并能混合输出。

此外,它还支持原生调用 Google 搜索和代码执行等工具,以及通过多模态实时 API 集成摄像头或屏幕共享,实现实时多模态应用,支持自然对话,随时打断,功能非常强大。

现在,可以在 AI Studio 中使用了,完整内容可以看公告。

谷歌发布多款 AI Agent 项目

谷歌在发布 Flash2.0 的同时,还更新和宣布了多款 AI Agent 项目,包括:

  1. 更新了今年 I/O 大会上的 Project Astra[5],这是一个能够理解用户环境背景的通用 AI 助手。
  2. 发布了 Project Mariner[6],这是一个借助浏览器完成复杂任务的 AI Agent。
  3. 发布了 Jules[7],这是一个为开发者提供的编程代理。
  4. 还有适用于游戏和其他领域[8]的 Agent。

看来,2025 年似乎将会是谷歌的 Agent 元年!