原文首发于2023年4月19日

还在苦苦等待GPT-4开放？开源项目MiniGPT-4就能提前体验类似GPT-4的多模态对话功能。

（1）GPT-4回顾

多模态效果令人眼馋，输入一张UI草图，就能直接生成网站DEMO代码

源自OpenAI宣传视频：www.youtube.com/watch?v=out…

然而，1个月过去了，GPT-4的多模态能力还是犹抱琵琶半遮面，千呼万唤不出来。

再加上某些原因，即便成为付费用户，也面临随时封禁的风险。

想体验却遥遥无期，怎么办？

（2）MiniGPT-4诞生

2023年4月17日，多模态问答模型MiniGPT-4发布，实现了GPT-4里的宣传效果

《MiniGPT-4: Enhancing Vision-language Understanding with Advanced Large Language Models》

阿卜杜拉国王科技大学的几位博士（看名字都是中国人）开发，他们认为GPT-4 先进的多模态生成能力，主要原因在于利用了更先进的大型语言模型。

为了验证这一想法，团队成员将一个冻结的视觉编码器(Q-Former&ViT)与一个冻结的文本生成大模型（Vicuna，江湖人称：小羊驼）进行对齐，造出了 MiniGPT-4。

MiniGPT-4 具有许多类似于 GPT-4 的能力, 图像描述生成、从手写草稿创建网站等
MiniGPT-4 还能根据图像创作故事和诗歌，为图像中显示的问题提供解决方案，教用户如何根据食物照片做饭等。

模型结构

投影层（Projection Layer）是神经网络中常见层类型，将输入数据从一个空间映射到另一个空间。
NLP中，投影层通常用于将高维词向量映射到低维空间，以减少模型参数数量和计算量。
CV中，投影层可以将高维图像特征向量映射到低维空间，以便于后续处理和分析。

fine tune 分为两个阶段

先是在 4 个 A100 上用 500 万图文对训练
然后再用一个小的高质量数据集训练，单卡 A100 训练只需要 7 分钟。

最终，在零样本 VQAv2 上，BLIP-2 相较于 80 亿参数的 Flamingo 模型，使用的可训练参数数量少了 54 倍，性能提升了 8.7 %。

官方测试样例

马克杯设计者是谁？帮忙写一个营销广告
复现GPT-4里的看图写网站demo
写广告语

更多案例：minigpt-4.github.io/

（3）MiniGPT-4实测

Demo页面分为几个功能区

测试图片区：用户自行上传要测试的图片
参数配置区：文本生成参数自定义，主要有两个：
- beam search数（beam_size）：一种解码算法——集束解码（beam search decoding），每步解码时生成几个候选。
  - 当beam_size=1时，退化为贪心解码（greedy search docoding），每次只选取概率最高的结果。贪心解码快质量一般。
  - 当beam_size>1时，集束解码效果好但速度慢
- temperature：温度，控制生成结果的多样性
- - 当 temperature→0，就变成greedy search；
  - 当 temperature→∞，就变成均匀采样（uniform sampling）
问题输入：根据图片，输入问题，系统自动作答
会话历史：展示历史会话信息

更多信息参考文本生成专题：wqw547243068.github.io/text-genera…

DEMO页面截图如下：

官方提供多个demo链接，如果排队人多，切换别的链接

中文问答测试

①图片里有什么物品？

这个房间有一张**沙发 ，一张**床 ， 一张桌子，一把椅子，一个橱柜，一个电视机 ，一个**音响机 ，一个**阳光灯 ，一个抽屉，一个绿色**毯子 ，一个**毛绒具 。

评估：主要物体能识别出来，物品识别有一半出错，数量统计出错。

②里面的人在那干嘛

你在廚房里做飯。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯熱茶。你的鍋子上有一杯�

评估：人物动作识别出错，倒水泡茶识别成做饭（确实容易混淆），但文本生成过程出现频繁重复、截断，受限于13b的小羊驼模型。

③这个人在做什么

这个人在做饭。

评估：人物动作识别出错，倒水泡茶识别成做饭。改进prompt提示后，文本生成故障消失。

④介绍下房间格局、装修

这是一个现代化的客厅，墙上是绿色色调的墙壁，地面是混凝土地面。客厅有一个橱柜，里面装满了各种家具，包括椅子、 沙发、 书架和桌子。桌子上有一个杯熱茶和一个杯咖啡。客厅还有一个电视机和一个音响机 *。

客厅的窗户是双腿窗，有绿色窗帘和白色窗户。房间有一个阳光灯和一个抽屉。房间的墙壁上有一些装饰品，包括画作和雕塑。地面有一个绿色毯子和一个毛绒具。

整个房间整齐、温馨，适合休闲和聚*

评估：描述效果较好，长度截断。

⑤房价格局有什么不足？怎么改进？

这个房子的价格格局比较低，可能是因为它的装修和设施不够完备，或者所在地区的价格环境不够优越。为了改进房子的价格格局，可以考虑进行一些改进，例如增加装修和设施，例如更好的厨房设施、更多的卫生间和厨房设施，或者在房子周围的环境和社区中增加优势，例如在附近建立一些商业设施或者在周围建立一些高端住宅。

评估：建议适中。

总结

对prompt质量敏感，建议使用时先学习如何写高质量prompt，详见：Prompt提示工程编写指南
物体识别效果一般：主要物品能识别，但容易混淆，无法计数
适合创作类作答，充分发挥大语言模型理解能力，但不适合精确问答
生成文本限制：长度最大约600个字符，对应200个汉字

（4）计算机视觉为什么难

跟上一代视觉问答相比，MiniGPT-4效果还可以，离人类水平还有一定距离。

有人会说：

这个图片挺简单的，我答得比MiniGPT-4好多了，又准又快，机器表现也就那样嘛！

让机器识别图片内容为什么难？

测试图片里女孩的父亲——朱松纯，计算机视觉领域最高奖马儿奖获得者

湖北鄂州人，1986年考入中科大计算机系
1992年赴美留学，1996年获得美国哈佛大学计算机专业博士学位
2002年，加州大学洛杉矶分校UCLA统计学和计算机科学教授，视觉、认知、学习与自主机器人中心主任
2005 年，朱松纯回到老家湖北鄂州，带头成立莲花山计算机视觉研究院
2018 年底，中国广州成立暗物智能
2010年至2020年二次担任美国视觉、认知科学、AI领域跨学科合作项目MURI首席科学家
2020年回国，以国家战略科学家身份受邀回国，筹建北大通用人工智能研究所，并挂名清华教授，清华大学通用人工智能研究院（筹）院长

他一个女儿就是冬奥会上代表中国出场的朱易

多年前，朱松纯详细解答了计算机视觉为什么难？

先看看几个典型案例

① 日本机器人实力很强，有一年登上央视春晚集体跳舞。然而，一个福岛核事故让人看到了真相：日本、美国的机器人手足无措，机器人背后的电线被卡主，动弹不得。
② 美国波士顿动力闻名遐迩，能跑能跳，还能“打人”、“参战”，很厉害。然而，国防部养不起，卖给谷歌后，照样亏钱，难以商业化应用，又被谷歌转手卖给软银。波士顿动力机器人加上DeepMind这个超强大脑，不就宇宙无敌了？谷歌是不是傻？
③ 2015年，美国国防部在洛杉矶郊区Pomona做了一个挑战赛，DARPA Robot Challenge（DRC），最后是韩国科技大学队赢了第一名，获得200万美金。
右侧的人形机器人看起来很厉害，然而，真相是全程都是人在操控，机器人自己并没有感知、认知、推理和规划能力。

人工智能炒作了几十年，机器人并没有真正上路，目前就自动售卖机、特定领域无人驾驶汽车上路了。计算机视觉为什么这么难？

现在的人工智能、机器人缺乏常识：物理常识、社会常识，也就是我们在这个世界生活的基本知识，高频使用、举一反三。

一张简单的图像，蕴含大量的常识信息

几何常识：物体各自形状，即便被遮盖，也能推理，根据角度预估距离，根据纹理推断物体硬度等
三维重建：多个角度的图像映射到同一个物体，感知空间信息
功能推理：场景识别的本质，倾斜水壶就能倒出水
物理稳定性：松开杯子就会掉地上，吊灯会随风摇摆，凳子可以移动等
动作预估：提起水壶上，即将要倒水
任务驱动的因果推理

这些对人来说简单，但对机器都是难点。

（5）乌鸦智能

怎么办？小数据、大任务，从鹦鹉智能转向乌鸦智能。

乌鸦给我们的启示：

其一、完全自主的智能。感知、认知、推理、学习和执行。世界上一批顶级的科学家都解决不了的问题，乌鸦向我们证明了这个解存在。
其二、大数据非必须。乌鸦有几百万人工标注好的训练数据给它学习吗？没有，它自己把这个事通过少量数据想清楚了，没人教它。
其三、海量计算非必须。乌鸦头有多大？不到人脑的1%大小。人脑功耗大约是10-25瓦，乌鸦只有0.1-0.2瓦，根本不需要核动力发电。这给硬件芯片设计者提出了挑战和思路。

这个解存在，但目前还不知道怎么实现这。我们要寻找“乌鸦”模式的智能，而不是“鹦鹉”模式的智能。当然，不能否认，“鹦鹉”模式的智能在某些垂直应用有效。

AI研究者应该寻求乌鸦智能，而不是鹦鹉智能。

详见：生成式人工智能(GAI)沉思录：浪潮之巅还是迷茫之谷？

附录：

demo地址：minigpt-4.github.io/
朱松纯讲座：wqw547243068.github.io/2017/11/02/…

MiniGPT-4初探：不用GPT-4照样能体验多模态问答

（1）GPT-4回顾

（2）MiniGPT-4诞生

（3）MiniGPT-4实测

（4）计算机视觉为什么难

（5）乌鸦智能