【国产GitHub】开源 JoyAI-Image-Edit,图像生成,空间感拉满

0 阅读6分钟

当多数图像 AI 还停留在「会生成」的阶段,京东开源的 JoyAI-Image-Edit 直接把图像编辑从平面修图推向空间智能。

这不是又一个「更好用的 AI 修图工具」,而是业内首个把「空间智能」写进模型架构底层的开源一体化图像模型——让模型真正「理解空间,编辑空间」。

01 过去两年,图像 AI 到底卡在哪?

过去两年,我们见过太多「神级」图像模型——画猫比真猫还毛茸茸,画赛博朋克街道比电影还炫,画一只手有六根手指也能让你觉得是艺术。

所有人都以为,图像 AI 已经快到头了。

但直到你真的上手用它干点正经事:

  • • 想换个角度看看自家客厅?  透视关系瞬间崩塌,沙发像在漂浮,落地灯穿墙而过。
  • • 想把前景的苹果和后面的书调一下前后顺序?  遮挡关系直接错乱,比例全面失衡,画面宛如一场灾难现场。

你崩不崩溃?

它们会画画,却不懂空间。  它们能生成惊艳的像素,却看不懂像素背后那个立体的、有前后、有深度、有光影逻辑的真实世界。它们是熟练的「平面裱糊匠」,却不是懂事的「空间观察者」。

这道坎儿,横在图像 AI 面前。谁来迈?

02 JoyAI-Image-Edit 是什么?

4 月初,京东正式对外开源 JoyAI-Image-Edit 图像模型。

代码已放在 GitHub 上,以 Apache 2.0 协议释出,推理代码全部开放,开发者可以直接拿去做应用。

目前系统已完成对 ComfyUI 的支持,并全面兼容 Diffusers 格式的模型权重与推理流程,方便开发者进行灵活部署与二次开发。

2.1 架构:理解 × 生成 × 编辑 的闭环

技术上,JoyAI-Image 把一个 80 亿参数的多模态语言模型(MLLM)  和一个 160 亿参数的多模态扩散 Transformer(MMDiT)  耦合在一起,形成一个共享接口,让空间意图从指令解析一路贯穿到图像生成。

更关键的是它背后的数据和训练哲学:一条可扩展的数据流水线,包含空间理解数据(OpenSpatial)、长文本渲染数据、编辑数据(SpatialEdit),再加上多阶段的优化策略。

这套架构的精髓在哪?

在于「理解」和「生成」第一次形成了真正的闭环。

过去的图像模型,理解归理解、生成归生成,两边各玩各的。而 JoyAI-Image 的核心原则是理解、生成、编辑三者之间的闭环协作:

更强的空间理解让生成和编辑更可控,而视角变换这类生成操作又反过来为空间推理提供新的证据。

说人话就是:模型一边「看」一边「画」,一边「画」又帮它看得更清楚。这才是真正意义上的空间智能觉醒。

2.2 三大空间编辑能力

落到具体能力上,JoyAI-Image 支持三种空间编辑提示范式:

1. 相机控制

你可以用一句大白话告诉它——「把相机往右偏 30 度,往下俯 15 度,再拉近一点」——模型会在保持场景几何一致性的前提下,给你生成一张全新视角的图像,透视关系、遮挡关系、光影关系全都对得上

编辑指令:  Move the camera.

  • • Camera rotation: Yaw 90.0°, Pitch 0.0°.
  • • Camera zoom: unchanged.
  • • Keep the 3D scene static; only change the viewpoint.

2. 物体旋转与空间漫游

支持连续的视角移动,能生成一整串逻辑连贯的多视角图像序列。

什么意思?就好像你戴着一台虚拟相机,真的在这个三维场景里「走动」,每一帧都立得住

编辑指令:  Rotate the sneaker to show the front view.

3. 物体空间关系操控

挪动、旋转、缩放画面中的任何一个物体,场景整体结构保持稳定,遮挡自然合理,光影过渡顺滑,不会再出现变形、错位、比例失衡那些老毛病。

编辑指令:  Move the coffee into the red box

2.3 横评对比

和 Qwen-Image-Edit、Nano Banana Pro 相比,JoyAI-Image-Edit 能够忠实执行相机运动,合成最具诊断性的新视角,这些高保真的新视角有效地消除了复杂空间关系的歧义。

顶尖的空间编辑 × 全面的通用编辑,这是真正的「文武双全」。

03 为什么是电商和具身?

一个模型的价值,不在跑分,而在用在哪。

JoyAI-Image-Edit 最能发挥威力的两个战场,一个是电商,一个是具身智能——恰好都是京东的主场。

3.1 电商:成本杀手

做电商的品牌客户,是对空间编辑最饥渴的用户。

一件商品拍进来,要换背景、换角度、换搭配、换场景、换光线。过去这些活儿要么靠摄影师重拍,要么靠设计师通宵 P 图,要么靠 AI 生成一堆「塑料感」假图。

有了 JoyAI-Image-Edit,一张主图可以自动衍生出几十种视角和场景,商品还是那个商品,形象保持一致,细节不穿帮,成本直接砍到脚踝。

对于服务着数百万商家的京东来说,这不是锦上添花,这是水和电。

3.2 具身智能:空间理解是刚需

具身智能的场景,则是空间理解最硬的刚需。

机器人要在真实世界里干活,第一件事就是「看懂」空间——哪是桌子、哪是椅子、杯子离我多远、我伸手能不能够到。

空间理解能力,就是机器人「理解世界」的核心底座。

而机器人行业的卡脖子问题是「数据」,如何能生产海量供机器人训练的数据,光靠本体采集、遥操是不够的,这时候 JoyAI-Image-Edit 能派上很大用场。

在具身智能的实测演示中,用户只需输入一句自然语言提示词(比如「机器人左手举起来」),并用画框框选目标区域,就能对指定物体的动作、姿态和旋转角度进行精细化操控。

写在最后

对电商从业者,它是成本杀手;

对设计师,它是随身的三维助手;

对机器人团队,它是视觉感知的现成底座;

对学术研究者,它是可以站在上面继续往前走的巨人肩膀。

【XPlaza仓库地址】

www.xplaza.cn/u8078/JoyAI…


信创、开源、人工智能资源,尽在XPlaza信创开源广场!