微软开源的AI视觉交互系统来了!

108 阅读2分钟

原创 了不起 开源小分队

自从 chatgpt 发布以来,其智能的对话体验受到了广泛关注,各种有关 AI 的 开源项目层出不穷。

今天给大家推荐一个微软的开源项目,一个月的时间就斩获了31.4k + star,这个项目是 -- Visual-ChatGPT。

图片

项目简介

Visual ChatGPT调用ChatGPT以及一系列视觉基础模型来以实现在聊天过程中发送和接收图像,以及动态对图像进行处理。支持AI绘画、语言回答、看图回答,能够实现更加智能、人性化的图像对话体验。

图片

项目特点

  • 提供视觉聊天系统,可以接收和发送文本和图像
  • 提供复杂的视觉问答和视觉编辑指令,可以解决复杂视觉任务
  • Visual ChatGPT 可以在多个领域或任务上表现出智能行为,并且可以根据上下文切换不同模式

系统架构

图片

Visual ChatGPT 不是从头开始训练一个新的多模型 ChatGPT,而是基于 ChatGPT 构建的。Prompt Manager是ChatGPT 和VFM 之间的桥梁,它的功能如下:

  • 告诉 ChatGPT 每个 VFM 的功能并指定输入输出格式
  • 处理不同 VFM 的历史、优先级和冲突
  • 把不同的视觉信息转换为语言格式便于 ChatGPT 理解

处理流程

图片

用户上传了一张黄色花朵的图片,并输入了一条指令"请根据该图像生成的深度图在生成一朵红色花朵,然后逐步将其制作成卡通图片",

在 Prompt Manager 的帮助下,ChatGPT 可以利用这些 VFM,并以迭代的方式接收它们的反馈,直到满足用户的需求。

项目地址

https://github.com/microsoft/visual-chatgpt

总结

Visual ChatGPT 把 Visual Foundation 视觉模型接入 ChatGPT,用户能够和 ChatGPT进行图像方式的交互,能够接收复杂的视觉指令,让多个模型协同工作。感兴趣的同学赶快去试试吧~