OpenAI 推出 sCM：50 倍速度提升的图像生成新方法OpenAI 推出 sCM：50 倍速度提升的图像生成新方法

OpenAI 推出 sCM：50 倍速度提升的图像生成新方法

OpenAI 刚刚发布了 sCM[8]，这是一种新的图像生成方法，它不仅实现了与扩散模型相当的质量，而且仅需 2 次采样步骤。

在 A100 GPU 上，生成单张图像仅需 0.11 秒，实现了约 50 倍的速度提升。生成速度上有非常强的潜力呀，端侧生图新的希望。。

OmniGen: 多模态输入的开源图像生成模型

OmniGen[1] 是一个能够接受多模态输入的开源图像生成模型，只需输入提示词，就能自动识别输入图像中的特征，就像是内置了 ControlNet、IpAdapter 等预处理模型。这个模型使用特殊的 XML 标记提示词，可以实现文生图、风格迁移、角色一致性、图像编辑和图生图。官方提供了在线使用，你们可以自己玩下在线试用[2]。

Midjourney 推出图像编辑新功能

微信截图_20241024095857.png Midjourney[3] 网页版刚刚发布了两个新功能：

现在不仅能编辑 AI 生成的图像，还能编辑自己上传的图像了。
保持图片结构不变，只换风格或重新上色。

虽然但是，这两功能目前只向年度会员或者已经生成了 10000+ 张图片的用户开放。

Mochi：仅需 20G 显存的低成本运行方案

微信截图_20241024095939.png 我找到了两个低显存运行方案：

kijai[4] 大佬发布的 ComfyUI 节点，仅需 20G 显存。
genmoai-smol[5] 的 Fork 版本，需要 24G 显存。昨天还需要 4 块 H100 呢，今天已经只需一块 4090 了，显存需求大幅降低。

agent.exe：利用 Claude 3.5 Sonnet 实现跨平台计算机控制

微信截图_20241024095857.png

agent.exe[6] 是一款利用了 Anthropic 最新发布的 Computer use[7] 能力的工具。该工具完全开源，并支持 Win、Mac 和 Linux 平台。作者在演示中展示了如何使用 agent.exe 在 Google Flights 上订票，就完美的订错了日期，哈哈哈