【国产GitHub】开源 JoyAI-Image-Edit，图像生成，空间感拉满当多数图像 AI 还停留在「会生成」的阶

当多数图像 AI 还停留在「会生成」的阶段，京东开源的 JoyAI-Image-Edit 直接把图像编辑从平面修图推向空间智能。

这不是又一个「更好用的 AI 修图工具」，而是业内首个把「空间智能」写进模型架构底层的开源一体化图像模型——让模型真正「理解空间，编辑空间」。

01 过去两年，图像 AI 到底卡在哪？

过去两年，我们见过太多「神级」图像模型——画猫比真猫还毛茸茸，画赛博朋克街道比电影还炫，画一只手有六根手指也能让你觉得是艺术。

所有人都以为，图像 AI 已经快到头了。

但直到你真的上手用它干点正经事：

• 想换个角度看看自家客厅？ 透视关系瞬间崩塌，沙发像在漂浮，落地灯穿墙而过。
• 想把前景的苹果和后面的书调一下前后顺序？ 遮挡关系直接错乱，比例全面失衡，画面宛如一场灾难现场。

你崩不崩溃？

它们会画画，却不懂空间。 它们能生成惊艳的像素，却看不懂像素背后那个立体的、有前后、有深度、有光影逻辑的真实世界。它们是熟练的「平面裱糊匠」，却不是懂事的「空间观察者」。

这道坎儿，横在图像 AI 面前。谁来迈？

02 JoyAI-Image-Edit 是什么？

4 月初，京东正式对外开源 JoyAI-Image-Edit 图像模型。

代码已放在 GitHub 上，以 Apache 2.0 协议释出，推理代码全部开放，开发者可以直接拿去做应用。

目前系统已完成对 ComfyUI 的支持，并全面兼容 Diffusers 格式的模型权重与推理流程，方便开发者进行灵活部署与二次开发。

2.1 架构：理解 × 生成 × 编辑的闭环

技术上，JoyAI-Image 把一个 80 亿参数的多模态语言模型（MLLM） 和一个 160 亿参数的多模态扩散 Transformer（MMDiT） 耦合在一起，形成一个共享接口，让空间意图从指令解析一路贯穿到图像生成。

更关键的是它背后的数据和训练哲学：一条可扩展的数据流水线，包含空间理解数据（OpenSpatial）、长文本渲染数据、编辑数据（SpatialEdit），再加上多阶段的优化策略。

这套架构的精髓在哪？

在于「理解」和「生成」第一次形成了真正的闭环。

过去的图像模型，理解归理解、生成归生成，两边各玩各的。而 JoyAI-Image 的核心原则是理解、生成、编辑三者之间的闭环协作：

更强的空间理解让生成和编辑更可控，而视角变换这类生成操作又反过来为空间推理提供新的证据。

说人话就是：模型一边「看」一边「画」，一边「画」又帮它看得更清楚。这才是真正意义上的空间智能觉醒。

2.2 三大空间编辑能力

落到具体能力上，JoyAI-Image 支持三种空间编辑提示范式：

1. 相机控制

你可以用一句大白话告诉它——「把相机往右偏 30 度，往下俯 15 度，再拉近一点」——模型会在保持场景几何一致性的前提下，给你生成一张全新视角的图像，透视关系、遮挡关系、光影关系全都对得上。

编辑指令： Move the camera.

• Camera rotation: Yaw 90.0°, Pitch 0.0°.
• Camera zoom: unchanged.
• Keep the 3D scene static; only change the viewpoint.

2. 物体旋转与空间漫游

支持连续的视角移动，能生成一整串逻辑连贯的多视角图像序列。

什么意思？就好像你戴着一台虚拟相机，真的在这个三维场景里「走动」，每一帧都立得住。

编辑指令： Rotate the sneaker to show the front view.

3. 物体空间关系操控

挪动、旋转、缩放画面中的任何一个物体，场景整体结构保持稳定，遮挡自然合理，光影过渡顺滑，不会再出现变形、错位、比例失衡那些老毛病。

编辑指令： Move the coffee into the red box

2.3 横评对比

和 Qwen-Image-Edit、Nano Banana Pro 相比，JoyAI-Image-Edit 能够忠实执行相机运动，合成最具诊断性的新视角，这些高保真的新视角有效地消除了复杂空间关系的歧义。

顶尖的空间编辑 × 全面的通用编辑，这是真正的「文武双全」。

03 为什么是电商和具身？

一个模型的价值，不在跑分，而在用在哪。

JoyAI-Image-Edit 最能发挥威力的两个战场，一个是电商，一个是具身智能——恰好都是京东的主场。

3.1 电商：成本杀手

做电商的品牌客户，是对空间编辑最饥渴的用户。

一件商品拍进来，要换背景、换角度、换搭配、换场景、换光线。过去这些活儿要么靠摄影师重拍，要么靠设计师通宵 P 图，要么靠 AI 生成一堆「塑料感」假图。

有了 JoyAI-Image-Edit，一张主图可以自动衍生出几十种视角和场景，商品还是那个商品，形象保持一致，细节不穿帮，成本直接砍到脚踝。

对于服务着数百万商家的京东来说，这不是锦上添花，这是水和电。

3.2 具身智能：空间理解是刚需

具身智能的场景，则是空间理解最硬的刚需。

机器人要在真实世界里干活，第一件事就是「看懂」空间——哪是桌子、哪是椅子、杯子离我多远、我伸手能不能够到。

空间理解能力，就是机器人「理解世界」的核心底座。

而机器人行业的卡脖子问题是「数据」，如何能生产海量供机器人训练的数据，光靠本体采集、遥操是不够的，这时候 JoyAI-Image-Edit 能派上很大用场。

在具身智能的实测演示中，用户只需输入一句自然语言提示词（比如「机器人左手举起来」），并用画框框选目标区域，就能对指定物体的动作、姿态和旋转角度进行精细化操控。

写在最后

对电商从业者，它是成本杀手；

对设计师，它是随身的三维助手；

对机器人团队，它是视觉感知的现成底座；

对学术研究者，它是可以站在上面继续往前走的巨人肩膀。

【XPlaza仓库地址】

www.xplaza.cn/u8078/JoyAI…

信创、开源、人工智能资源，尽在XPlaza信创开源广场！

【国产GitHub】开源 JoyAI-Image-Edit，图像生成，空间感拉满