每周精选最具潜力的 AI 开源工具与技术。我们为你解析项目亮点与应用场景,并推荐实用资源,帮助你在 AI 开发中领先一步!无论是学习还是实践,《开源 AIGC 周刊》都是你的每周灵感来源!
本周不可错过的 AI 开源项目
腾讯混元视频模型
混元[1]是腾讯开源的视频大模型, 用于视频生成。它拥有超过 130 亿个参数, 是所有开源模型中最大的模型。根据专业的人工评估结果,混元视频的性能优于之前的最先进模型,包括 Runway Gen-3、Luma 1.6 和 3 个性能最好的中文视频生成模型。目前已有 4.7k star。
Fish Speech 1.5
Fish Speech 1.5[2] 是一款文本生成语音(TTS)模型,由 Fish Audio 研发。这是一项在 TTS-Arena 排名第二的开源语音合成技术,支持 13 种语言,并提供 150 毫秒以内的低延迟高质量即时语音克隆。目前已有 16.2k star。
MEMO
MEMO[3]是一个开源数字人头项目,能够根据音频生成人物肖像的视频。MEMO 可生成更逼真的谈话视频,涵盖不同的图像和音频类型,在整体质量、音频-唇部同步、身份一致性和表情-情绪一致性方面均优于最先进的方法。目前已有 193 star。
GenCast
GenCast[4]是谷歌开源的一款天气预报模型,专门用于预测天气和极端天气事件。该模型提供更快、更准确的预报,最远可达 15 天。目前已有 5.2k star。
TRELLIS
TRELLIS[5]是微软开源的一款图片生成3D模型,是提供了多达 20 亿个参数的大规模预训练模型。 TRELLIS 大大超越了现有的3D模型,并展示了灵活的输出格式选择和本地三维编辑功能,这是以前的模型所不具备的。目前已有 1.9k star。
ClearerVoice-Studio
ClearerVoice-Studio[6]是由阿里通义团队开源的人工智能语音处理工具包,支持语音增强、语音分离、目标扬声器提取等功能,且是可商用的协议。目前已有 661 star。
行业动态 🌟
OpenAI 12Days Day1: OpenAI o1正式版发布
12月5日是 OpenAI 12Days: Day1[7], 主要内容包括:
- 完整版 o1(暂无 API 支持)
- o1 pro 模型
- 每月 200 美元(约合 1450 人民币)的 ChatGPT Pro 订阅服务。ChatGPT Pro 提供了无限制访问高级语音模式、o1、4o 以及全新的 o1 pro 模型的特权,一般人应该用不上。
Hailuo I2V-01-Live
海螺 I2V-01-Live[8]是 I2V 系列的最新成员,它专门针对动漫图片,让角色以前所未有的方式移动、说话。
谷歌 Genie 2:AI 生成无尽可操作的游戏世界
Genie 2[9] 是由谷歌开发的大型世界模型,基于单张图片即可生成无尽的可操作和交互式 3D 游戏世界。用户可以通过键盘和鼠标控制这些生成的世界,主要用于训练或评估 AI agent。
警惕:ComfyUI热门插件Impact-Pack被植入病毒
ComfyUI-Impact-Pack[10] 插件依赖的 ultralytics 包被恶意植入了挖矿病毒,这几乎是一个必装的插件。如果你正在使用,请务必立即卸载。或可以直接通过 GitHub 安装 ultralytics 这个依赖,或者使用 8.3.43 版本[11]。
Meta发布 LLaMA 3.3 70B
Meta 正式发布了Llama 3.3 70B[12],这款模型支持 128K 的上下文窗口,具备多语言能力,并且增强了工具调用功能。与 Llama 3.1 70B 相比,其性能有了显著提升,部分基准测试结果甚至可与 Llama 405B 媲美。
参考资料
[1] 腾讯混元视频模型: github.com/Tencent/Hun…
[2] Fish Speech 1.5:
[3] MEMO:*
[4] GenCast:*
[5] TRELLIS:*
[6] ClearerVoice-Studio:
[7] OpenAI 12Days:
[8] Hailuo I2V-01-Live:
[9] 谷歌 Genie 2:
[10] 警惕:ComfyUI热门插件Impact-Pack被植入病毒
[11] 8.3.43 版本
[12] Meta发布 LLaMA 3.3 70B*
关于周刊
开源 AIGC 周刊,为你挑选最值得分享的文章、教程、开源项目、副业变现等内容。希望帮助所有读者学习 AIGC,并增长职业和副业的收入。
若希望更好的阅读体验,可移步微信公众号:张XX的AI小站