最强 3D 模型生成服务 Tripo 2.0Tripo AI[9] 咱之前也介绍过了，当时算是性能最好的 3D 生成模型

昨天快手发布了可灵 1.5[1]，支持直出 1080p 视频，且价格不变，可灵 1.5 模型和可灵 1.0 模型相比，在画面质量、动态质量、文本指令遵从效果等方面有显著效果提升。

微信截图_20240920091137.png

可灵 1.0 模型新增了运动笔刷功能，上传图片后，最多可为 6 个元素指定运动轨迹，最多支持生成 5s 视频。

需要注意的是，1.5 模型暂时不支持运镜控制和新功能运动笔刷。

GRIN MoE[2] 是微软开源的一款 MoE[3] 模型，使用了 SparseMixer-v2[4] 而非传统 MoE，仅用 6.6B 激活参数（共 16x3.8B），在编程和数学任务上能力出色，适用于内存/计算资源受限以及对延迟敏感的场景。

该模型的 MMLU 基准测试得分为 79.4，远超参数量更高的 Mixtral 8x22B 等一众模型，你可以在 GRIN-MoE-Demo/GRIN-MoE[5]直接试用。

Moshi[6] 早在 7 月初就介绍过了，恍如隔世啊，由法国的 AI 实验室 Kyutai 推出的实时语音多模态模型，当时引起了不小的热度。

现如今总算是开源 kyutai-labs/moshi[7] 了，官方的演示还是在 moshi.chat[8]，试用下来没啥太多变化。

微信截图_20240920095807.png

Tripo AI[9] 咱之前也介绍过了，当时算是性能最好的 3D 生成模型，可惜是闭源的。昨天它们发布了 2.0 版本，效果更好，速度更快，从视频演示来看，生成能力还是吊打开源模型。

相信大家都已经知道了，阿里昨天开源了 Qwen2.5[10] 系列模型，除了 32B 和 72B 的版本外均可商用。

基准测试

今天凌晨，知名基准测试分析平台 Artificial Analysis[11] 终于更新了其具体排名数据，72B 模型在 MMLU 得分仅比参数量更大的 Llama 3.1 405B 低 1%，在数学能力上超越 GPT-4o，编程能力上超越 GPT-4o-mini。

性能 VS 输出速度，价格

对比 Llama 3.1 405B，它体积小，同硬件水平运行速度快，支持 128k 的上下文窗口和 8k 输出 tokens。

此外，模型的价格也相对比较低，1M Tokens 输入输出的价格分别为 0.38/0.4 美元，GPT4-o 为 2.5/10 美元

EzAudio[12]是一个期货开源的文生音频模型，能够生成环境音、动物、音乐和音效等声音。

在这里OpenSound/EzAudio[13]可以直接试用