Allegro:可商用开源视频生成模型

55 阅读2分钟

Allegro:可商用开源视频生成模型

微信截图_20241023100330.png Allegro[1] 是一个基于 Apache2.0 协议的开源视频生成模型,能够根据提示词生成 720p 15fps 的 6 秒视频,可用于商业用途。虽然只有 8B 参数,但视频质量还算中规中矩吧。

Ideogram 推出 Canvas 功能:无限创意画布

微信截图_20241023100416.png Ideogram 刚刚推出了 Canvas[2] 功能,这是一个专用于组织、生成、编辑和组合图像设计的创意画布。此外,还新增了魔法填充和一键扩图功能,并且都支持 API 调用,不过这些功能都需要订阅才能使用。自从 OpenAI 推出类似功能后,各大厂商纷纷跟进,管他呢,先蹭上,哈哈哈。

computer use 、新版 Claude Sonnet 3.5、和全新 Haiku 模型

Anthropic[3] 最近发布了一系列更新,主要包括:

  1. 升级版 Claude 3.5 Sonnet:能力进一步提升,超越了 OpenAI 的 o1。
  2. 新模型 Claude 3.5 Haiku:性能与 Claude 3 Opus 相当,但成本更低、速度更快。
  3. computer use:允许 Claude 像人一样操作电脑,包括阅读屏幕、移动鼠标、点击按钮和打字。这个功能本质上是调用 Claude API 来自动化操作电脑,有点像下一代 RPA?不过目前还很早期,成功率不高。

SAI 发布 Stable Diffusion 3.5

SAI 发布了 Stable Diffusion 3.5 Large 和 Stable Diffusion 3.5 Large Turbo。Stable Diffusion 3.5 Medium 将于 10 月 29 日发布!更多详细内容建议看官方的更新日志[4]。

SAI 官方很有意思,之前 SD3 没法生成躺着的美女,这次封面图直接就是一个躺在地上的美女。另外自从上次开源协议争议,这次长记性了,可以有限制(小于1M收入)的免费用于商业和非商业用途了!

Runway 推出 Act-One:无需设备的面部表情同步技术

微信截图_20241023100453.png Act-One[5] 是 Runway 在 Gen-3 Alpha 中引入的一项新功能。只需一个视频,即可将面部表情生动自然地绑定到任意角色上,无需任何额外设备。目前还没放出这个功能,很期待呀,你们怎么看?

Genmo 发布 Mochi 1:开源视频模型的天花板

微信截图_20241023100513.png Mochi 1[6] 是由 Genmo[7] 发布的视频模型,从演示效果来看,从演示来看应该是当下视频模型的天花板,极大的缩小了与商业模型的差距。该模型需 4 块 H100 显卡即可运行,并且官方提供了在线试用[8],虽然需要排队等待。

根据官方的基准测试,Mochi 1 的表现优于可灵、Luma、Pika 等商用模型。值得一提的是,此次发布的仅是 480P 版本,更强大的 HD 版本也即将推出。最牛是,该模型基于 Apache 2.0 协议,完全可商用!