王炸！京东宣布，正式开源在当前的视觉 AI 领域，其实我们常常面临一个尴尬的困境：图像理解（看图说话）、文生图（文字画图

大家好，我是小悟。

京东把图像模型JoyAI-Image开源了。

前言

在当前的视觉 AI 领域，其实我们常常面临一个尴尬的困境：图像理解（看图说话）、文生图（文字画图）和图生图（指令修图）往往由完全不同的模型架构割裂处理。

这种碎片化的工具链导致上下文丢失、语义断层，尤其是在需要精确空间控制和复杂指令编辑的场景下，现有模型往往显得力不从心。

针对这一痛点，京东发布了 JoyAI-Image 系列模型，试图通过“统一的多模态基础模型”打破这一壁垒。

其中JoyAI-Image-Edit，通过“空间智能”重新定义图像编辑。

JoyAI-Image-Edit 是什么？

JoyAI-Image-Edit 不仅仅是一个简单的 AI 修图工具，而是一个基于指令引导的图像编辑基座模型。它的核心理念在于建立了“理解-生成-编辑”的闭环协作机制。

简单来说，传统的编辑模型可能只关注“把苹果变蓝”，而 JoyAI-Image-Edit 会先通过强大的多模态大模型（MLLM）去“理解”图片中苹果的位置、光影关系以及与周围物体的遮挡关系，再由扩散模型（MMDiT）进行精准的像素级操作。

这种机制确保了编辑结果不仅在语义上符合指令，在物理空间上也具有高度的合理性。

核心功能与特色

相比市面上常见的编辑模型，JoyAI-Image-Edit 在以下几个维度展现了独特的竞争力：

空间感知的精准编辑（Spatial Editing）

这是该项目最大的亮点。它支持三种极具实用价值的空间编辑模式：

物体移动（Object Move）：能够将指定物体平移至画面中的特定区域，并能智能处理移动后的阴影和遮挡关系。

物体旋转（Object Rotation）：支持将物体旋转至前视、后视、左前视等八个标准视角，这对于电商产品图生成极为有用。

相机控制（Camera Control）：在不改变场景内容的前提下，仅调整相机的偏航角（Yaw）和俯仰角（Pitch），实现“推拉摇移”的电影级运镜效果。

极致的文本渲染能力

针对 AI 绘图长期以来的顽疾——“写字崩坏”，JoyAI-Image 进行了专项优化。无论是漫画分镜中的密集对白、多行排版的长文本，还是复杂的手写体，模型都能保持极高的字符保真度和布局一致性。

多视图生成辅助推理

通过生成同一场景的不同视角（Novel View Synthesis），JoyAI-Image 不仅能产出更多样的素材，还能反过来增强模型的空间推理能力。例如，当模型难以判断两个物体的前后关系时，生成一个新的侧视角就能让答案一目了然。

技术架构与开发友好性

JoyAI-Image 采用了8B MLLM + 16B MMDiT的组合架构。

大脑（MLLM）：负责解析复杂的自然语言指令和图像内容，进行深层的场景解析和意图分解。

双手（MMDiT）：基于多模态扩散Transformer，负责执行高保真的图像生成与编辑。

这种设计使得模型在处理长文本提示词和复杂几何变换时，比单纯的 U-Net 架构更具优势。

同时，项目提供了蒸馏版本（Distilled），在保证效果的同时大幅提升了推理速度，兼顾了研究探索与生产落地的需求。

部署与使用

对于开发者而言，JoyAI-Image 的开箱体验相当友好：

环境配置：仅需 Python ≥ 3.10 和 CUDA 环境，通过 pip install -e .即可完成依赖安装。

conda create -n joyai python=3.10 -y
conda activate joyai
pip install -e .

图像理解：只需几行命令即可调用 inference_und.py进行多图对比分析。

python inference_und.py \  
--ckpt-root /path/to/ckpts_infer \  
--image "test_images/test_1.jpg,test_images/test3.png" \  
--prompt "Compare these two images." \  
--max-new-tokens 1024

图像编辑：通过 inference.py，结合 --prompt（指令）和 --image（原图）参数，即可快速生成结果。

python inference.py \  
--ckpt-root /path/to/ckpts_infer \  
--prompt "Turn the plate blue" \  
--image test_images/test_1.jpg \  
--output outputs/result.png \  
--seed 123 \  --steps 30 \  
--guidance-scale 5.0 \  
--basesize 1024

硬件优化：建议安装 flash-attn >= 2.8.0，以利用 Flash Attention 内核加速显存占用和计算速度。

开源协议与商业支持

商业与生态：项目已在 HuggingFace 和 ModelScope 上发布权重，并提供了详细的 SpatialEdit 数据集参考。

开源地址：
https://github.com/jd-opensource/JoyAI-Image

总结

JoyAI-Image 的出现，标志着开源社区在多模态统一建模方向上迈出了坚实的一步。它不再仅仅追求“画得好看”，而是开始追求“看得懂、动得准、想得透”。

谢谢你看我的文章，既然看到这里了，如果觉得不错，随手点个赞、转发、在看三连吧，感谢感谢。那我们，下次再见。

您的一键三连，是我更新的最大动力，谢谢

山水有相逢，来日皆可期，谢谢阅读，我们再会

我手中的金箍棒，上能通天，下能探海