最强 3D 模型生成服务 Tripo 2.0

271 阅读2分钟

快手可灵:发布 1.5 全新版本和运动笔刷

昨天快手发布了可灵 1.5[1],支持直出 1080p 视频,且价格不变,可灵 1.5 模型和可灵 1.0 模型相比,在画面质量、动态质量、文本指令遵从效果等方面有显著效果提升。

微信截图_20240920091137.png

可灵 1.0 模型新增了运动笔刷功能,上传图片后,最多可为 6 个元素指定运动轨迹,最多支持生成 5s 视频。

需要注意的是,1.5 模型暂时不支持运镜控制和新功能运动笔刷。

微软 GRIN MoE:6.6B 激活参数模型

GRIN MoE[2] 是微软开源的一款 MoE[3] 模型,使用了 SparseMixer-v2[4] 而非传统 MoE,仅用 6.6B 激活参数(共 16x3.8B),在编程和数学任务上能力出色,适用于内存/计算资源受限以及对延迟敏感的场景。

该模型的 MMLU 基准测试得分为 79.4,远超参数量更高的 Mixtral 8x22B 等一众模型,你可以在 GRIN-MoE-Demo/GRIN-MoE[5]直接试用。

Moshi: 对标 ChatGPT 的开源实时语音多模态模型

Moshi[6] 早在 7 月初就介绍过了,恍如隔世啊,由法国的 AI 实验室 Kyutai 推出的实时语音多模态模型,当时引起了不小的热度。

现如今总算是开源 kyutai-labs/moshi[7] 了,官方的演示还是在 moshi.chat[8],试用下来没啥太多变化。

Tripo 2.0:可能是最强 3D 模型生成服务

微信截图_20240920095807.png

Tripo AI[9] 咱之前也介绍过了,当时算是性能最好的 3D 生成模型,可惜是闭源的。 昨天它们发布了 2.0 版本,效果更好,速度更快,从视频演示来看,生成能力还是吊打开源模型。

阿里通义千问:Qwen2.5 基础模型大派对

相信大家都已经知道了,阿里昨天开源了 Qwen2.5[10] 系列模型,除了 32B 和 72B 的版本外均可商用。

基准测试

今天凌晨,知名基准测试分析平台 Artificial Analysis[11] 终于更新了其具体排名数据,72B 模型在 MMLU 得分仅比参数量更大的 Llama 3.1 405B 低 1%,在数学能力上超越 GPT-4o,编程能力上超越 GPT-4o-mini。

性能 VS 输出速度,价格

对比 Llama 3.1 405B,它体积小,同硬件水平运行速度快,支持 128k 的上下文窗口和 8k 输出 tokens。

此外,模型的价格也相对比较低,1M Tokens 输入输出的价格分别为 0.38/0.4 美元,GPT4-o 为 2.5/10 美元

腾讯 EzAudio:文生音频模型

EzAudio[12]是一个期货开源的文生音频模型,能够生成环境音、动物、音乐和音效等声音。

在这里OpenSound/EzAudio[13]可以直接试用