当多数图像 AI 还停留在「会生成」的阶段,京东开源的 JoyAI-Image-Edit 直接把图像编辑从平面修图推向空间智能。
这不是又一个「更好用的 AI 修图工具」,而是业内首个把「空间智能」写进模型架构底层的开源一体化图像模型——让模型真正「理解空间,编辑空间」。
01 过去两年,图像 AI 到底卡在哪?
过去两年,我们见过太多「神级」图像模型——画猫比真猫还毛茸茸,画赛博朋克街道比电影还炫,画一只手有六根手指也能让你觉得是艺术。
所有人都以为,图像 AI 已经快到头了。
但直到你真的上手用它干点正经事:
- • 想换个角度看看自家客厅? 透视关系瞬间崩塌,沙发像在漂浮,落地灯穿墙而过。
- • 想把前景的苹果和后面的书调一下前后顺序? 遮挡关系直接错乱,比例全面失衡,画面宛如一场灾难现场。
你崩不崩溃?
它们会画画,却不懂空间。 它们能生成惊艳的像素,却看不懂像素背后那个立体的、有前后、有深度、有光影逻辑的真实世界。它们是熟练的「平面裱糊匠」,却不是懂事的「空间观察者」。
这道坎儿,横在图像 AI 面前。谁来迈?
02 JoyAI-Image-Edit 是什么?
4 月初,京东正式对外开源 JoyAI-Image-Edit 图像模型。
代码已放在 GitHub 上,以 Apache 2.0 协议释出,推理代码全部开放,开发者可以直接拿去做应用。
目前系统已完成对 ComfyUI 的支持,并全面兼容 Diffusers 格式的模型权重与推理流程,方便开发者进行灵活部署与二次开发。
2.1 架构:理解 × 生成 × 编辑 的闭环
技术上,JoyAI-Image 把一个 80 亿参数的多模态语言模型(MLLM) 和一个 160 亿参数的多模态扩散 Transformer(MMDiT) 耦合在一起,形成一个共享接口,让空间意图从指令解析一路贯穿到图像生成。
更关键的是它背后的数据和训练哲学:一条可扩展的数据流水线,包含空间理解数据(OpenSpatial)、长文本渲染数据、编辑数据(SpatialEdit),再加上多阶段的优化策略。
这套架构的精髓在哪?
在于「理解」和「生成」第一次形成了真正的闭环。
过去的图像模型,理解归理解、生成归生成,两边各玩各的。而 JoyAI-Image 的核心原则是理解、生成、编辑三者之间的闭环协作:
更强的空间理解让生成和编辑更可控,而视角变换这类生成操作又反过来为空间推理提供新的证据。
说人话就是:模型一边「看」一边「画」,一边「画」又帮它看得更清楚。这才是真正意义上的空间智能觉醒。
2.2 三大空间编辑能力
落到具体能力上,JoyAI-Image 支持三种空间编辑提示范式:
1. 相机控制
你可以用一句大白话告诉它——「把相机往右偏 30 度,往下俯 15 度,再拉近一点」——模型会在保持场景几何一致性的前提下,给你生成一张全新视角的图像,透视关系、遮挡关系、光影关系全都对得上。
编辑指令: Move the camera.
- • Camera rotation: Yaw 90.0°, Pitch 0.0°.
- • Camera zoom: unchanged.
- • Keep the 3D scene static; only change the viewpoint.
2. 物体旋转与空间漫游
支持连续的视角移动,能生成一整串逻辑连贯的多视角图像序列。
什么意思?就好像你戴着一台虚拟相机,真的在这个三维场景里「走动」,每一帧都立得住。
编辑指令: Rotate the sneaker to show the front view.
3. 物体空间关系操控
挪动、旋转、缩放画面中的任何一个物体,场景整体结构保持稳定,遮挡自然合理,光影过渡顺滑,不会再出现变形、错位、比例失衡那些老毛病。
编辑指令: Move the coffee into the red box
2.3 横评对比
和 Qwen-Image-Edit、Nano Banana Pro 相比,JoyAI-Image-Edit 能够忠实执行相机运动,合成最具诊断性的新视角,这些高保真的新视角有效地消除了复杂空间关系的歧义。
顶尖的空间编辑 × 全面的通用编辑,这是真正的「文武双全」。
03 为什么是电商和具身?
一个模型的价值,不在跑分,而在用在哪。
JoyAI-Image-Edit 最能发挥威力的两个战场,一个是电商,一个是具身智能——恰好都是京东的主场。
3.1 电商:成本杀手
做电商的品牌客户,是对空间编辑最饥渴的用户。
一件商品拍进来,要换背景、换角度、换搭配、换场景、换光线。过去这些活儿要么靠摄影师重拍,要么靠设计师通宵 P 图,要么靠 AI 生成一堆「塑料感」假图。
有了 JoyAI-Image-Edit,一张主图可以自动衍生出几十种视角和场景,商品还是那个商品,形象保持一致,细节不穿帮,成本直接砍到脚踝。
对于服务着数百万商家的京东来说,这不是锦上添花,这是水和电。
3.2 具身智能:空间理解是刚需
具身智能的场景,则是空间理解最硬的刚需。
机器人要在真实世界里干活,第一件事就是「看懂」空间——哪是桌子、哪是椅子、杯子离我多远、我伸手能不能够到。
空间理解能力,就是机器人「理解世界」的核心底座。
而机器人行业的卡脖子问题是「数据」,如何能生产海量供机器人训练的数据,光靠本体采集、遥操是不够的,这时候 JoyAI-Image-Edit 能派上很大用场。
在具身智能的实测演示中,用户只需输入一句自然语言提示词(比如「机器人左手举起来」),并用画框框选目标区域,就能对指定物体的动作、姿态和旋转角度进行精细化操控。
写在最后
对电商从业者,它是成本杀手;
对设计师,它是随身的三维助手;
对机器人团队,它是视觉感知的现成底座;
对学术研究者,它是可以站在上面继续往前走的巨人肩膀。
【XPlaza仓库地址】
信创、开源、人工智能资源,尽在XPlaza信创开源广场!