zenctrl_tools 万金油视觉内容创作 Agent

62 阅读1分钟

zenctrl_tools:万金油视觉内容创作 Agent

zenctrl_tools[1] 是一个多功能图像处理 Agent,致力于自动化整个个性化视觉内容创作流程。目前项目正在积极开发中,部分模型权重已经开放,代码即将开源。

开发团队昨日发布了首个官方演示[2],并表示将逐步开源以下核心功能:

  1. 控制能力:
  • 预处理:背景移除、抠图、重塑、分割等
  • 控制模型:支持形状(Canny/HED/涂鸦/深度等)、姿态、蒙版、相机视角
  • 后处理:图像增强、色彩校正、混合
  • 编辑功能:修复(移除/蒙版混合/替换)、外扩、运动变换、重新照明
  1. 任务处理:
  • 背景生成
  • 受控背景生成
  • 上下文连贯生成
  • 对象放置
  • 视频生成
  • 多对象合并/混合
  1. 应用场景:
  • 产品摄影
  • 时尚配饰虚拟适配
  • 虚拟试穿
  • 人物图像处理

OpenAI 升级 GPT-4o

OpenAI 在 ChatGPT 中发布了更新的 GPT-4o,改进了提示词遵循、编程能力和创造力,减少了 emoji 输出,现在付费用户可以使用了,免费用户将在未来几周内获得使用权限。

此外,OpenAI Agents SDK[3] 现在也正式支持 MCP 协议了,这下MCP真的要起飞了。

Midjourney V7 下周或将发布

据推友消息[4],曾经的 AI 绘画领域的领头人 Midjourney 即将在下周发布 V7 版本。目前官方尚未透露具体更新细节。

不过说实话,如果没有什么非常逆天的能力更新,那么估计会和 Ideogram 3.0 一样淹没在昨天 4o 的各种吉卜力画风的浪潮中。