DeepSeek 宣布开源全新的视觉多模态模型Janus-Pro-7B,其在 GenEval 和 DPG-Bench 基准测试中击败了 Stable Diffusion 和 OpenAI 的 DALL-E 3。
模型地址:huggingface.co/spaces/deep…
Janus-Pro 是一个统一的多模态大语言模型(MLLM),通过将视觉编码过程从多模态理解和生成中解耦来实现更高效的处理。Janus-Pro 是基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 模型构建的。
在多模态理解任务中,Janus-Pro 采用 SigLIP-L 作为视觉编码器,支持 384 x 384 像素的图像输入。而在图像生成任务中,Janus-Pro 使用一个来自特定来源的分词器,降采样率为 16。
Janus-Pro 是一种创新的自回归框架,实现多模态信息的统一理解与生成。与以往的方法不同,Janus-Pro 通过将视觉编码过程拆分为多个独立的路径,解决了以往框架中的一些局限性,同时仍采用单一的统一变换器架构进行处理。
这一解耦方式不仅有效缓解了视觉编码器在理解和生成过程中可能出现的冲突,还提升了框架的灵活性。
Janus 的表现超越了传统的统一模型,并且在与任务特定模型的比较中也同样表现出色。凭借其简洁、高灵活性和高效性的特点,Janus-Pro 成为下一代统一多模态模型的有力竞争者。
comfyui工作流,小程序:AI图工厂