OpenAI 免费用户将自动降智OpenAI 发布 GPT-4.5 和 GPT-5 路线图，免费用户将自动降智 Open

OpenAI CEO Sam Altman 近日发布了 OpenAI 的OpenAI 未来产品路线图[13]更新，特别是关于 GPT-4.5 和 GPT-5 的计划。

他表示，GPT-4.5 将是 OpenAI 发布的最后一个非链式思考（non-chain-of-thought）模型。

GPT-5 将集成 OpenAI 的多项技术，包括 o3。而 o3 将不再作为独立模型发布，而是整合到 GPT-5 中。

此外，Sam 还表示免费用户将可以无限制地访问 GPT-5，但会自动降智。Plus 用户则不会降智，而 Pro 用户将支持语音、画布、搜索、深度研究等高级功能。

Lumina-Image-2.0[1] 现已推出官方演示[2]。

该模型支持多种图像生成功能，包括写真、艺术字、风格化图像、逻辑推理图像、双语 prompt 以及图片加文字的引导生成。

此外，这里还有一个社区演示[3]，这个演示比起官方演示的话可以自定义系统提示词。

总体感觉这个模型生成的效果和 Flux Dev 差不多。

SVDQuant[4] 是由 MIT 等机构开发的一项创新技术，它能够在 4 位量化下保持扩散模型的图像质量。

这项技术不仅显著减少了内存访问开销，还通过 Nunchaku[5] 推理引擎的配合，使得模型即使在笔记本上也能快速运行。

最6的是，该技术与现有的 LoRA 模型完全兼容，这意味着用户无需重新训练。

官方还提供了在线演示，佬们可以亲自体验[6]，速度确实非常快！

谷歌 Whisk[7] 现已开放给 100 多个国家和地区的用户使用。

用户可以通过上传或生成图像来定义主题、场景和风格，然后将它们混合生成新图片。

谷歌之前还发布了 TokenVerse[8]，演示了如何从多张图片中提取元素，实现 Whisk 的效果。虽然目前只有论文，但后续会开源。

Animate Anyone 2[9] 是阿里推出的一种角色动画技术。

此次更新使其能够生成动作更复杂、幅度更大的视频，并能够将角色与环境进行融合。

不过，Animate Anyone 1 至今都没有开源，2 代应该也不会开源，看个乐吧。

Pippo[10] 是 Meta Reality Labs 推出的一项创新技术，它能够从一张普通照片中生成多视角、高分辨率（1K）的人像视频。

这项技术不仅支持面部多视角生成，还能生成全身的多视角视频，极大地扩展了其在虚拟现实和增强现实领域的应用潜力。

Pippo 的代码已经在 GitHub 上开源。

Adobe Firefly[11] Video Model 是 Adobe Firefly 系列中的一部分，专门用于视频创作。

这个模型支持文生视频、图生视频、音频翻译、口型同步、相机控制和关键帧引导视频生成。

官方提供了两次试用机会，超出试用次数则需要订阅额外的会员费。

我看了眼评论区，都是喷的。

OpenAI发布模型规范[12] ，旨在创建既安全又有用的模型，同时满足用户和开发者的需求。

内容非常详细，涵盖了多个角度和方向，举了很多例子，有兴趣的佬友可以深入阅读。