OpenAI 推出 sCM:50 倍速度提升的图像生成新方法
OpenAI 刚刚发布了 sCM[8],这是一种新的图像生成方法,它不仅实现了与扩散模型相当的质量,而且仅需 2 次采样步骤。
在 A100 GPU 上,生成单张图像仅需 0.11 秒,实现了约 50 倍的速度提升。生成速度上有非常强的潜力呀,端侧生图新的希望。。
OmniGen: 多模态输入的开源图像生成模型
OmniGen[1] 是一个能够接受多模态输入的开源图像生成模型,只需输入提示词,就能自动识别输入图像中的特征,就像是内置了 ControlNet、IpAdapter 等预处理模型。这个模型使用特殊的 XML 标记提示词,可以实现文生图、风格迁移、角色一致性、图像编辑和图生图。官方提供了在线使用,你们可以自己玩下 在线试用[2]。
Midjourney 推出图像编辑新功能
Midjourney[3] 网页版刚刚发布了两个新功能:
- 现在不仅能编辑 AI 生成的图像,还能编辑自己上传的图像了。
- 保持图片结构不变,只换风格或重新上色。
虽然但是,这两功能目前只向年度会员或者已经生成了 10000+ 张图片的用户开放。
Mochi:仅需 20G 显存的低成本运行方案
我找到了两个低显存运行方案:
- kijai[4] 大佬发布的 ComfyUI 节点,仅需 20G 显存。
- genmoai-smol[5] 的 Fork 版本,需要 24G 显存。 昨天还需要 4 块 H100 呢,今天已经只需一块 4090 了,显存需求大幅降低。
agent.exe:利用 Claude 3.5 Sonnet 实现跨平台计算机控制
agent.exe[6] 是一款利用了 Anthropic 最新发布的 Computer use[7] 能力的工具。该工具完全开源,并支持 Win、Mac 和 Linux 平台。作者在演示中展示了如何使用 agent.exe 在 Google Flights 上订票,就完美的订错了日期,哈哈哈