OpenAI 发布 GPT-4.5 和 GPT-5 路线图,免费用户将自动降智
OpenAI CEO Sam Altman 近日发布了 OpenAI 的OpenAI 未来产品路线图[13]更新,特别是关于 GPT-4.5 和 GPT-5 的计划。
他表示,GPT-4.5 将是 OpenAI 发布的最后一个非链式思考(non-chain-of-thought)模型。
GPT-5 将集成 OpenAI 的多项技术,包括 o3。而 o3 将不再作为独立模型发布,而是整合到 GPT-5 中。
此外,Sam 还表示免费用户将可以无限制地访问 GPT-5,但会自动降智。Plus 用户则不会降智,而 Pro 用户将支持语音、画布、搜索、深度研究等高级功能。
Lumina-Image-2.0:现已推出官方演示
Lumina-Image-2.0[1] 现已推出官方演示[2]。
该模型支持多种图像生成功能,包括写真、艺术字、风格化图像、逻辑推理图像、双语 prompt 以及图片加文字的引导生成。
此外,这里还有一个社区演示[3],这个演示比起官方演示的话可以自定义系统提示词。
总体感觉这个模型生成的效果和 Flux Dev 差不多。
SVDQuant:4 位量化技术让扩散模型在笔记本上快速运行
SVDQuant[4] 是由 MIT 等机构开发的一项创新技术,它能够在 4 位量化下保持扩散模型的图像质量。
这项技术不仅显著减少了内存访问开销,还通过 Nunchaku[5] 推理引擎的配合,使得模型即使在笔记本上也能快速运行。
最6的是,该技术与现有的 LoRA 模型完全兼容,这意味着用户无需重新训练。
官方还提供了在线演示,佬们可以亲自体验[6],速度确实非常快!
谷歌 Whisk:图像混合生成新图片的全球开放
谷歌 Whisk[7] 现已开放给 100 多个国家和地区的用户使用。
用户可以通过上传或生成图像来定义主题、场景和风格,然后将它们混合生成新图片。
谷歌之前还发布了 TokenVerse[8],演示了如何从多张图片中提取元素,实现 Whisk 的效果。虽然目前只有论文,但后续会开源。
阿里推出 Animate Anyone 2:更复杂的角色动画技术
Animate Anyone 2[9] 是阿里推出的一种角色动画技术。
此次更新使其能够生成动作更复杂、幅度更大的视频,并能够将角色与环境进行融合。
不过,Animate Anyone 1 至今都没有开源,2 代应该也不会开源,看个乐吧。
Meta Pippo:单图生成多视角高清人像视频
Pippo[10] 是 Meta Reality Labs 推出的一项创新技术,它能够从一张普通照片中生成多视角、高分辨率(1K)的人像视频。
这项技术不仅支持面部多视角生成,还能生成全身的多视角视频,极大地扩展了其在虚拟现实和增强现实领域的应用潜力。
Pippo 的代码已经在 GitHub 上开源。
Adobe Firefly 推出 AI 视频生成功能,支持多种创作模式
Adobe Firefly[11] Video Model 是 Adobe Firefly 系列中的一部分,专门用于视频创作。
这个模型支持文生视频、图生视频、音频翻译、口型同步、相机控制和关键帧引导视频生成。
官方提供了两次试用机会,超出试用次数则需要订阅额外的会员费。
我看了眼评论区,都是喷的。
OpenAI 发布模型规范
OpenAI发布模型规范[12] ,旨在创建既安全又有用的模型,同时满足用户和开发者的需求。
内容非常详细,涵盖了多个角度和方向,举了很多例子,有兴趣的佬友可以深入阅读。