原创 了不起 开源小分队
自从 chatgpt 发布以来,其智能的对话体验受到了广泛关注,各种有关 AI 的 开源项目层出不穷。
今天给大家推荐一个微软的开源项目,一个月的时间就斩获了31.4k + star,这个项目是 -- Visual-ChatGPT。
项目简介
Visual ChatGPT调用ChatGPT以及一系列视觉基础模型来以实现在聊天过程中发送和接收图像,以及动态对图像进行处理。支持AI绘画、语言回答、看图回答,能够实现更加智能、人性化的图像对话体验。
项目特点
- 提供视觉聊天系统,可以接收和发送文本和图像
- 提供复杂的视觉问答和视觉编辑指令,可以解决复杂视觉任务
- Visual ChatGPT 可以在多个领域或任务上表现出智能行为,并且可以根据上下文切换不同模式
系统架构
Visual ChatGPT 不是从头开始训练一个新的多模型 ChatGPT,而是基于 ChatGPT 构建的。Prompt Manager是ChatGPT 和VFM 之间的桥梁,它的功能如下:
- 告诉 ChatGPT 每个 VFM 的功能并指定输入输出格式
- 处理不同 VFM 的历史、优先级和冲突
- 把不同的视觉信息转换为语言格式便于 ChatGPT 理解
处理流程
用户上传了一张黄色花朵的图片,并输入了一条指令"请根据该图像生成的深度图在生成一朵红色花朵,然后逐步将其制作成卡通图片",
在 Prompt Manager 的帮助下,ChatGPT 可以利用这些 VFM,并以迭代的方式接收它们的反馈,直到满足用户的需求。
项目地址
https://github.com/microsoft/visual-chatgpt
总结
Visual ChatGPT 把 Visual Foundation 视觉模型接入 ChatGPT,用户能够和 ChatGPT进行图像方式的交互,能够接收复杂的视觉指令,让多个模型协同工作。感兴趣的同学赶快去试试吧~