大家好,我是小悟。
京东把图像模型JoyAI-Image开源了。
前言
在当前的视觉 AI 领域,其实我们常常面临一个尴尬的困境:图像理解(看图说话)、文生图(文字画图)和图生图(指令修图)往往由完全不同的模型架构割裂处理。
这种碎片化的工具链导致上下文丢失、语义断层,尤其是在需要精确空间控制和复杂指令编辑的场景下,现有模型往往显得力不从心。
针对这一痛点,京东发布了 JoyAI-Image 系列模型,试图通过“统一的多模态基础模型”打破这一壁垒。
其中JoyAI-Image-Edit,通过“空间智能”重新定义图像编辑。
JoyAI-Image-Edit 是什么?
JoyAI-Image-Edit 不仅仅是一个简单的 AI 修图工具,而是一个基于指令引导的图像编辑基座模型。它的核心理念在于建立了“理解-生成-编辑”的闭环协作机制。
简单来说,传统的编辑模型可能只关注“把苹果变蓝”,而 JoyAI-Image-Edit 会先通过强大的多模态大模型(MLLM)去“理解”图片中苹果的位置、光影关系以及与周围物体的遮挡关系,再由扩散模型(MMDiT)进行精准的像素级操作。
这种机制确保了编辑结果不仅在语义上符合指令,在物理空间上也具有高度的合理性。
核心功能与特色
相比市面上常见的编辑模型,JoyAI-Image-Edit 在以下几个维度展现了独特的竞争力:
- 空间感知的精准编辑(Spatial Editing)
这是该项目最大的亮点。它支持三种极具实用价值的空间编辑模式:
物体移动(Object Move): 能够将指定物体平移至画面中的特定区域,并能智能处理移动后的阴影和遮挡关系。
物体旋转(Object Rotation): 支持将物体旋转至前视、后视、左前视等八个标准视角,这对于电商产品图生成极为有用。
相机控制(Camera Control): 在不改变场景内容的前提下,仅调整相机的偏航角(Yaw)和俯仰角(Pitch),实现“推拉摇移”的电影级运镜效果。
- 极致的文本渲染能力
针对 AI 绘图长期以来的顽疾——“写字崩坏”,JoyAI-Image 进行了专项优化。无论是漫画分镜中的密集对白、多行排版的长文本,还是复杂的手写体,模型都能保持极高的字符保真度和布局一致性。
- 多视图生成辅助推理
通过生成同一场景的不同视角(Novel View Synthesis),JoyAI-Image 不仅能产出更多样的素材,还能反过来增强模型的空间推理能力。例如,当模型难以判断两个物体的前后关系时,生成一个新的侧视角就能让答案一目了然。
技术架构与开发友好性
JoyAI-Image 采用了8B MLLM + 16B MMDiT的组合架构。
大脑(MLLM): 负责解析复杂的自然语言指令和图像内容,进行深层的场景解析和意图分解。
双手(MMDiT): 基于多模态扩散Transformer,负责执行高保真的图像生成与编辑。
这种设计使得模型在处理长文本提示词和复杂几何变换时,比单纯的 U-Net 架构更具优势。
同时,项目提供了蒸馏版本(Distilled),在保证效果的同时大幅提升了推理速度,兼顾了研究探索与生产落地的需求。
部署与使用
对于开发者而言,JoyAI-Image 的开箱体验相当友好:
环境配置: 仅需 Python ≥ 3.10 和 CUDA 环境,通过 pip install -e .即可完成依赖安装。
conda create -n joyai python=3.10 -y
conda activate joyai
pip install -e .
图像理解: 只需几行命令即可调用 inference_und.py进行多图对比分析。
python inference_und.py \
--ckpt-root /path/to/ckpts_infer \
--image "test_images/test_1.jpg,test_images/test3.png" \
--prompt "Compare these two images." \
--max-new-tokens 1024
图像编辑: 通过 inference.py,结合 --prompt(指令)和 --image(原图)参数,即可快速生成结果。
python inference.py \
--ckpt-root /path/to/ckpts_infer \
--prompt "Turn the plate blue" \
--image test_images/test_1.jpg \
--output outputs/result.png \
--seed 123 \ --steps 30 \
--guidance-scale 5.0 \
--basesize 1024
硬件优化: 建议安装 flash-attn >= 2.8.0,以利用 Flash Attention 内核加速显存占用和计算速度。
开源协议与商业支持
开源协议: 项目采用 Apache-2.0 许可证。这意味着你可以自由地使用、修改和分发代码,甚至将其用于商业闭源产品,需保留版权声明即可。
商业与生态: 项目已在 HuggingFace 和 ModelScope 上发布权重,并提供了详细的 SpatialEdit 数据集参考。
开源地址:
https://github.com/jd-opensource/JoyAI-Image
总结
JoyAI-Image 的出现,标志着开源社区在多模态统一建模方向上迈出了坚实的一步。它不再仅仅追求“画得好看”,而是开始追求“看得懂、动得准、想得透”。
谢谢你看我的文章,既然看到这里了,如果觉得不错,随手点个赞、转发、在看三连吧,感谢感谢。那我们,下次再见。
您的一键三连,是我更新的最大动力,谢谢
山水有相逢,来日皆可期,谢谢阅读,我们再会
我手中的金箍棒,上能通天,下能探海