DeepSeek新作多模态大模型Janus重磅发布

261 阅读2分钟

Janus 是一种新颖的自回归框架,它统一了多模态理解和生成。它通过将视觉编码解耦为独立的路径来解决先前方法的局限性,同时仍然使用单一、统一的 Transformer 架构进行处理。这种解耦不仅减轻了视觉编码器在理解和生成中的角色之间的冲突,还增强了框架的灵活性。Janus 超越了先前的统一模型,并达到或超过了特定任务模型的性能。Janus 的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。

image.png 要说到这个名字,Janus,雅努斯(Janus)是罗马人的门神,也是罗马人的保护神。具有前后两个面孔或四方四个面孔,象征开始。最古老的信息告诉人们,雅努斯是起源神,执掌着开始和入门,也执掌着出口和结束,同时他又被称为“门户总管”,他永远都象征着世界上矛盾的万事万物,所以,他的肖像被画成两张脸,有“双头雅努斯“的说法。

双面,也正对应这个大模型可以文生图、图生文,也是双面!不得不说,DeepSeek这波名字起的是真好!

模型下载

参考教程进行高速下载即可。

部署运行

参考教程进行基础环境的准备。 安装依赖环境

pip install -e .[gradio]

python demo/app.py

image.png

也有文生图功能:

image.png

image.png

image.png

DeepSeek的大模型,每次发布都很谨慎,做的也很认真,整体效果从没有让人失望过,一直在用他们的Coder大模型来辅助编程。

使用Janus一个模型,可以同时完成文生图、图生文,可以省去单独部署文生图大模型的麻烦。