MiniGPT-4初探:不用GPT-4照样能体验多模态问答

283 阅读10分钟

原文 首发于2023年4月19日

还在苦苦等待GPT-4开放?开源项目MiniGPT-4就能提前体验类似GPT-4的多模态对话功能。

(1)GPT-4回顾

多模态效果令人眼馋,输入一张UI草图,就能直接生成网站DEMO代码

图片

图片

图片

源自OpenAI宣传视频:www.youtube.com/watch?v=out…

然而,1个月过去了,GPT-4的多模态能力还是犹抱琵琶半遮面,千呼万唤不出来。

再加上某些原因,即便成为付费用户,也面临随时封禁的风险。

图片

想体验却遥遥无期,怎么办?

图片

(2)MiniGPT-4诞生

2023年4月17日,多模态问答模型MiniGPT-4发布,实现了GPT-4里的宣传效果

《MiniGPT-4: Enhancing Vision-language Understanding with Advanced Large Language Models》

阿卜杜拉国王科技大学的几位博士(看名字都是中国人)开发,他们认为GPT-4 先进的多模态生成能力,主要原因在于利用了更先进的大型语言模型。

为了验证这一想法,团队成员将一个冻结的视觉编码器(Q-Former&ViT)与一个冻结的 文本生成大模型(Vicuna,江湖人称:小羊驼) 进行对齐,造出了 MiniGPT-4。

  • MiniGPT-4 具有许多类似于 GPT-4 的能力, 图像描述生成、从手写草稿创建网站等
  • MiniGPT-4 还能根据图像创作故事和诗歌,为图像中显示的问题提供解决方案,教用户如何根据食物照片做饭等。

模型结构

  • 投影层(Projection Layer)是神经网络中常见层类型,将输入数据从一个空间映射到另一个空间。
  • NLP中,投影层通常用于将高维词向量映射到低维空间,以减少模型参数数量和计算量。
  • CV中,投影层可以将高维图像特征向量映射到低维空间,以便于后续处理和分析。

图片

fine tune 分为两个阶段

  • 先是在 4 个 A100 上用 500 万图文对训练
  • 然后再用一个小的高质量数据集训练,单卡 A100 训练只需要 7 分钟。

最终,在零样本 VQAv2 上,BLIP-2 相较于 80 亿参数的 Flamingo 模型,使用的可训练参数数量少了 54 倍,性能提升了 8.7 %。

官方测试样例

  • 马克杯设计者是谁?帮忙写一个营销广告
  • 复现GPT-4里的看图写网站demo
  • 写广告语

图片

更多案例:minigpt-4.github.io/

(3)MiniGPT-4实测

Demo页面分为几个功能区

  • 测试图片区:用户自行上传要测试的图片
  • 参数配置区:文本生成参数自定义,主要有两个:
    • beam search数(beam_size):一种解码算法——集束解码(beam search decoding),每步解码时生成几个候选。
      • 当beam_size=1时,退化为 贪心解码(greedy search docoding),每次只选取概率最高的结果。贪心解码快质量一般。
      • 当beam_size>1时,集束解码效果好但速度慢
    • temperature:温度,控制生成结果的多样性
      • 当 temperature→0,就变成greedy search
      • 当 temperature→∞,就变成均匀采样(uniform sampling)
  • 问题输入:根据图片,输入问题,系统自动作答
  • 会话历史:展示历史会话信息

更多信息参考文本生成专题:wqw547243068.github.io/text-genera…

DEMO页面截图如下:

  • 官方提供多个demo链接,如果排队人多,切换别的链接

图片

中文问答测试

①图片里有什么物品?

这个房间有一张**沙发 ,一张**床 张桌子,一把椅子,一个橱柜,一个电视机 ,一个**音响机 ,一个**阳光灯 ,一个抽屉,一个绿色**毯子 ,一个**毛绒具

评估:主要物体能识别出来,物品识别有一半出错,数量统计出错。

②里面的人在那干嘛

你在廚房里做飯。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯�

评估:人物动作识别出错,倒水泡茶识别成做饭(确实容易混淆),但文本生成过程出现频繁重复、截断,受限于13b的小羊驼模型。

③这个人在做什么

这个人在做饭。

评估:人物动作识别出错,倒水泡茶识别成做饭。改进prompt提示后,文本生成故障消失。

④介绍下房间格局、装修

这是一个现代化的客厅,墙上是绿色色调的墙壁,地面是混凝土地面。客厅有一个橱柜,里面装满了各种家具,包括椅子、 沙发 书架和桌子。桌子上有一个杯熱茶和一个杯咖啡。客厅还有一个电视机和一个音响机 *。

客厅的窗户是双腿窗,有绿色窗帘和白色窗户。房间有一个阳光灯和一个抽屉。房间的墙壁上有一些装饰品,包括画作和雕塑。地面有一个绿色毯子和一个毛绒具。

整个房间整齐、温馨,适合休闲和聚*

评估:描述效果较好,长度截断。

⑤房价格局有什么不足?怎么改进?

这个房子的价格格局比较低,可能是因为它的装修和设施不够完备,或者所在地区的价格环境不够优越。为了改进房子的价格格局,可以考虑进行一些改进,例如增加装修和设施,例如更好的厨房设施、更多的卫生间和厨房设施,或者在房子周围的环境和社区中增加优势,例如在附近建立一些商业设施或者在周围建立一些高端住宅。

评估:建议适中。

总结

  • 对prompt质量敏感,建议使用时先学习如何写高质量prompt,详见:Prompt提示工程编写指南

  • 物体识别效果一般:主要物品能识别,但容易混淆,无法计数

  • 适合创作类作答,充分发挥大语言模型理解能力,但不适合精确问答

  • 生成文本限制:长度最大约600个字符,对应200个汉字

(4)计算机视觉为什么难

跟上一代视觉问答相比,MiniGPT-4效果还可以,离人类水平还有一定距离。

有人会说:

  • 这个图片挺简单的,我答得比MiniGPT-4好多了,又准又快,机器表现也就那样嘛!

让机器识别图片内容为什么难?

图片

测试图片里女孩的父亲——朱松纯,计算机视觉领域最高奖马儿奖获得者

  • 湖北鄂州人,1986年考入中科大计算机系

  • 1992年赴美留学,1996年获得美国哈佛大学计算机专业博士学位

  • 2002年,加州大学洛杉矶分校UCLA统计学和计算机科学教授,视觉、认知、学习与自主机器人中心主任

  • 2005 年,朱松纯回到老家湖北鄂州,带头成立莲花山计算机视觉研究院

  • 2018 年底,中国广州成立暗物智能

  • 2010年至2020年二次担任美国视觉、认知科学、AI领域跨学科合作项目MURI首席科学家

  • 2020年回国,以国家战略科学家身份受邀回国,筹建北大通用人工智能研究所,并挂名清华教授,清华大学通用人工智能研究院(筹)院长

图片

他一个女儿就是冬奥会上代表中国出场的朱易

图片

多年前,朱松纯详细解答了计算机视觉为什么难?

先看看几个典型案例

  • ① 日本机器人实力很强,有一年登上央视春晚集体跳舞。然而,一个福岛核事故让人看到了真相:日本、美国的机器人手足无措,机器人背后的电线被卡主,动弹不得。

  • ② 美国波士顿动力闻名遐迩,能跑能跳,还能“打人”、“参战”,很厉害。然而,国防部养不起,卖给谷歌后,照样亏钱,难以商业化应用,又被谷歌转手卖给软银。波士顿动力机器人加上DeepMind这个超强大脑,不就宇宙无敌了?谷歌是不是傻?

  • 图片

  • ③ 2015年,美国国防部在洛杉矶郊区Pomona做了一个挑战赛,DARPA Robot Challenge(DRC),最后是韩国科技大学队赢了第一名,获得200万美金。

  • 图片

  • 右侧的人形机器人看起来很厉害,然而,真相是全程都是人在操控,机器人自己并没有感知、认知、推理和规划能力。

人工智能炒作了几十年,机器人并没有真正上路,目前就自动售卖机、特定领域无人驾驶汽车上路了。计算机视觉为什么这么难?

现在的人工智能、机器人缺乏常识:物理常识、社会常识,也就是我们在这个世界生活的基本知识,高频使用、举一反三。
图片

一张简单的图像,蕴含大量的常识信息

  • 几何常识:物体各自形状,即便被遮盖,也能推理,根据角度预估距离,根据纹理推断物体硬度等
  • 三维重建:多个角度的图像映射到同一个物体,感知空间信息
  • 功能推理:场景识别的本质,倾斜水壶就能倒出水
  • 物理稳定性:松开杯子就会掉地上,吊灯会随风摇摆,凳子可以移动等
  • 动作预估:提起水壶上,即将要倒水
  • 任务驱动的因果推理

这些对人来说简单,但对机器都是难点。

(5)乌鸦智能

怎么办?小数据、大任务,从鹦鹉智能转向乌鸦智能。

乌鸦给我们的启示:

  • 其一、完全自主的智能。感知、认知、推理、学习和执行。世界上一批顶级的科学家都解决不了的问题,乌鸦向我们证明了这个解存在。
  • 其二、大数据非必须。乌鸦有几百万人工标注好的训练数据给它学习吗?没有,它自己把这个事通过少量数据想清楚了,没人教它。
  • 其三、海量计算非必须。乌鸦头有多大?不到人脑的1%大小。人脑功耗大约是10-25瓦,乌鸦只有0.1-0.2瓦,根本不需要核动力发电。这给硬件芯片设计者提出了挑战和思路。

这个解存在,但目前还不知道怎么实现这。我们要寻找“乌鸦”模式的智能,而不是“鹦鹉”模式的智能。当然,不能否认,“鹦鹉”模式的智能在某些垂直应用有效。

AI研究者应该寻求乌鸦智能,而不是鹦鹉智能。

图片

详见:生成式人工智能(GAI)沉思录:浪潮之巅还是迷茫之谷?

附录: