腾讯开源 StereoCrafter:一键将普通视频转为 3D 视频
StereoCrafter[3] 是腾讯开源的一个强大模型,能够将任何普通视频转换为红蓝、VR 或左右格式的 3D 视频。
官方还演示了将生成的视频在 Apple Vision Pro 中播放的效果,展示了其在实际应用中的潜力。该模型现已在 Hugging Face 上开放,感兴趣的朋友可以亲自跑一下。
商汤科技推出 Large Motion Model:统一多模态运动生成大模型
Large Motion Model[1] 是商汤科技推出的统一多模态运动生成模型。这一创新模型以运动为核心,构建了一个多模态框架,将主流运动生成任务整合为一个通用模型。
用户只需输入描述,即可生成一段运动姿势视频。目前,该模型已完全开源,支持多模态输入进行控制。你们可以在在线演示[2]亲自体验一下。
智谱开源 CogAgent-9B-20241220:提升 GUI 感知与多语言交互能力
智谱最新开源的 CogAgent[4]-9B-20241220 模型,类似于 Claude Computer use,在多个方面实现了显著提升。
新版本在 GUI 感知、推理预测准确性、动作空间完善性以及任务的普适和泛化性上都有大幅进步。
此外,CogAgent 能够处理中英文双语的屏幕截图和语言交互,极大地扩展了其应用范围。官方演示中,展示了如何在 MacOS 上自动调用微信给朋友发消息以及通过邮箱发送邮件。不过,目前的操作速度还比较慢,且需要提前为 AI 打开相关窗口,在 AI 操作过程中人类无法介入。
Aria-UI:领先的 GUI 多模态模型,AndroidWorld 基准测试第一
Aria-UI[5] 是一个专为 GUI 基础设计的大型多模态模型,类似于 Claude Computer use。它无需 HTML 或 AXTree 输入,采用纯视觉方法。作为 Moe 模型其速度也非常快。
在 AndroidWorld 基准测试中以 44.8% 的成功率排名第一。
官方提供了一个在线演示[6],确实速度挺快的,不过该技术是底层模型,没有封装成可交互的应用。