原文 首发于2023年4月19日
还在苦苦等待GPT-4开放?开源项目MiniGPT-4就能提前体验类似GPT-4的多模态对话功能。
(1)GPT-4回顾
多模态效果令人眼馋,输入一张UI草图,就能直接生成网站DEMO代码
源自OpenAI宣传视频:www.youtube.com/watch?v=out…
然而,1个月过去了,GPT-4的多模态能力还是犹抱琵琶半遮面,千呼万唤不出来。
再加上某些原因,即便成为付费用户,也面临随时封禁的风险。
想体验却遥遥无期,怎么办?
(2)MiniGPT-4诞生
2023年4月17日,多模态问答模型MiniGPT-4发布,实现了GPT-4里的宣传效果
《MiniGPT-4: Enhancing Vision-language Understanding with Advanced Large Language Models》
阿卜杜拉国王科技大学的几位博士(看名字都是中国人)开发,他们认为GPT-4 先进的多模态生成能力,主要原因在于利用了更先进的大型语言模型。
为了验证这一想法,团队成员将一个冻结的视觉编码器(Q-Former&ViT)与一个冻结的 文本生成大模型(Vicuna,江湖人称:小羊驼) 进行对齐,造出了 MiniGPT-4。
- MiniGPT-4 具有许多类似于 GPT-4 的能力, 图像描述生成、从手写草稿创建网站等
- MiniGPT-4 还能根据图像创作故事和诗歌,为图像中显示的问题提供解决方案,教用户如何根据食物照片做饭等。
模型结构
- 投影层(Projection Layer)是神经网络中常见层类型,将输入数据从一个空间映射到另一个空间。
- NLP中,投影层通常用于将高维词向量映射到低维空间,以减少模型参数数量和计算量。
- CV中,投影层可以将高维图像特征向量映射到低维空间,以便于后续处理和分析。
fine tune 分为两个阶段
- 先是在 4 个 A100 上用 500 万图文对训练
- 然后再用一个小的高质量数据集训练,单卡 A100 训练只需要 7 分钟。
最终,在零样本 VQAv2 上,BLIP-2 相较于 80 亿参数的 Flamingo 模型,使用的可训练参数数量少了 54 倍,性能提升了 8.7 %。
官方测试样例
- 马克杯设计者是谁?帮忙写一个营销广告
- 复现GPT-4里的看图写网站demo
- 写广告语
更多案例:minigpt-4.github.io/
(3)MiniGPT-4实测
Demo页面分为几个功能区
- 测试图片区:用户自行上传要测试的图片
- 参数配置区:文本生成参数自定义,主要有两个:
-
- beam search数(beam_size):一种解码算法——集束解码(beam search decoding),每步解码时生成几个候选。
- 当beam_size=1时,退化为 贪心解码(greedy search docoding),每次只选取概率最高的结果。贪心解码快质量一般。
- 当beam_size>1时,集束解码效果好但速度慢
- temperature:温度,控制生成结果的多样性
-
- 当 temperature→0,就变成
greedy search; - 当 temperature→∞,就变成
均匀采样(uniform sampling)
- 当 temperature→0,就变成
- beam search数(beam_size):一种解码算法——集束解码(beam search decoding),每步解码时生成几个候选。
- 问题输入:根据图片,输入问题,系统自动作答
- 会话历史:展示历史会话信息
更多信息参考文本生成专题:wqw547243068.github.io/text-genera…
DEMO页面截图如下:
- 官方提供多个demo链接,如果排队人多,切换别的链接
中文问答测试
①图片里有什么物品?
这个房间有一张**沙发 ,一张**床 , 一张桌子,一把椅子,一个橱柜,一个电视机 ,一个**音响机 ,一个**阳光灯 ,一个抽屉,一个绿色**毯子 ,一个**毛绒具 。
评估:主要物体能识别出来,物品识别有一半出错,数量统计出错。
②里面的人在那干嘛
你在廚房里做飯。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯�
评估:人物动作识别出错,倒水泡茶识别成做饭(确实容易混淆),但文本生成过程出现频繁重复、截断,受限于13b的小羊驼模型。
③这个人在做什么
这个人在做饭。
评估:人物动作识别出错,倒水泡茶识别成做饭。改进prompt提示后,文本生成故障消失。
④介绍下房间格局、装修
这是一个现代化的客厅,墙上是绿色色调的墙壁,地面是混凝土地面。客厅有一个橱柜,里面装满了各种家具,包括椅子、 沙发 、 书架和桌子。桌子上有一个杯熱茶和一个杯咖啡。客厅还有一个电视机和一个音响机 *。
客厅的窗户是双腿窗,有绿色窗帘和白色窗户。房间有一个阳光灯和一个抽屉。房间的墙壁上有一些装饰品,包括画作和雕塑。地面有一个绿色毯子和一个毛绒具。
整个房间整齐、温馨,适合休闲和聚*
评估:描述效果较好,长度截断。
⑤房价格局有什么不足?怎么改进?
这个房子的价格格局比较低,可能是因为它的装修和设施不够完备,或者所在地区的价格环境不够优越。为了改进房子的价格格局,可以考虑进行一些改进,例如增加装修和设施,例如更好的厨房设施、更多的卫生间和厨房设施,或者在房子周围的环境和社区中增加优势,例如在附近建立一些商业设施或者在周围建立一些高端住宅。
评估:建议适中。
总结
-
对prompt质量敏感,建议使用时先学习如何写高质量prompt,详见:Prompt提示工程编写指南
-
物体识别效果一般:主要物品能识别,但容易混淆,无法计数
-
适合创作类作答,充分发挥大语言模型理解能力,但不适合精确问答
-
生成文本限制:长度最大约600个字符,对应200个汉字
(4)计算机视觉为什么难
跟上一代视觉问答相比,MiniGPT-4效果还可以,离人类水平还有一定距离。
有人会说:
-
这个图片挺简单的,我答得比MiniGPT-4好多了,又准又快,机器表现也就那样嘛!
让机器识别图片内容为什么难?
测试图片里女孩的父亲——朱松纯,计算机视觉领域最高奖马儿奖获得者
-
湖北鄂州人,1986年考入中科大计算机系
-
1992年赴美留学,1996年获得美国哈佛大学计算机专业博士学位
-
2002年,加州大学洛杉矶分校UCLA统计学和计算机科学教授,视觉、认知、学习与自主机器人中心主任
-
2005 年,朱松纯回到老家湖北鄂州,带头成立莲花山计算机视觉研究院
-
2018 年底,中国广州成立暗物智能
-
2010年至2020年二次担任美国视觉、认知科学、AI领域跨学科合作项目MURI首席科学家
-
2020年回国,以国家战略科学家身份受邀回国,筹建北大通用人工智能研究所,并挂名清华教授,清华大学通用人工智能研究院(筹)院长
他一个女儿就是冬奥会上代表中国出场的朱易
多年前,朱松纯详细解答了计算机视觉为什么难?
先看看几个典型案例
-
① 日本机器人实力很强,有一年登上央视春晚集体跳舞。然而,一个福岛核事故让人看到了真相:日本、美国的机器人手足无措,机器人背后的电线被卡主,动弹不得。
-
② 美国波士顿动力闻名遐迩,能跑能跳,还能“打人”、“参战”,很厉害。然而,国防部养不起,卖给谷歌后,照样亏钱,难以商业化应用,又被谷歌转手卖给软银。波士顿动力机器人加上DeepMind这个超强大脑,不就宇宙无敌了?谷歌是不是傻?
-
-
③ 2015年,美国国防部在洛杉矶郊区Pomona做了一个挑战赛,DARPA Robot Challenge(DRC),最后是韩国科技大学队赢了第一名,获得200万美金。
-
-
右侧的人形机器人看起来很厉害,然而,真相是全程都是人在操控,机器人自己并没有感知、认知、推理和规划能力。
人工智能炒作了几十年,机器人并没有真正上路,目前就自动售卖机、特定领域无人驾驶汽车上路了。计算机视觉为什么这么难?
现在的人工智能、机器人缺乏常识:物理常识、社会常识,也就是我们在这个世界生活的基本知识,高频使用、举一反三。
一张简单的图像,蕴含大量的常识信息
- 几何常识:物体各自形状,即便被遮盖,也能推理,根据角度预估距离,根据纹理推断物体硬度等
- 三维重建:多个角度的图像映射到同一个物体,感知空间信息
- 功能推理:场景识别的本质,倾斜水壶就能倒出水
- 物理稳定性:松开杯子就会掉地上,吊灯会随风摇摆,凳子可以移动等
- 动作预估:提起水壶上,即将要倒水
- 任务驱动的因果推理
这些对人来说简单,但对机器都是难点。
(5)乌鸦智能
怎么办?小数据、大任务,从鹦鹉智能转向乌鸦智能。
乌鸦给我们的启示:
- 其一、完全自主的智能。感知、认知、推理、学习和执行。世界上一批顶级的科学家都解决不了的问题,乌鸦向我们证明了这个解存在。
- 其二、大数据非必须。乌鸦有几百万人工标注好的训练数据给它学习吗?没有,它自己把这个事通过少量数据想清楚了,没人教它。
- 其三、海量计算非必须。乌鸦头有多大?不到人脑的1%大小。人脑功耗大约是10-25瓦,乌鸦只有0.1-0.2瓦,根本不需要核动力发电。这给硬件芯片设计者提出了挑战和思路。
这个解存在,但目前还不知道怎么实现这。我们要寻找“乌鸦”模式的智能,而不是“鹦鹉”模式的智能。当然,不能否认,“鹦鹉”模式的智能在某些垂直应用有效。
AI研究者应该寻求乌鸦智能,而不是鹦鹉智能。
详见:生成式人工智能(GAI)沉思录:浪潮之巅还是迷茫之谷?
附录:
- demo地址:minigpt-4.github.io/
- 朱松纯讲座:wqw547243068.github.io/2017/11/02/…