认识 MiniGPT-4：一种开源 AI 模型，可以像 GPT-4 一样执行复杂的视觉语言任务GPT-4是OpenAI最

GPT-4是OpenAI最新发布的大型语言模型。它的多模态性使其有别于之前推出的所有LLMs。GPT的转化器架构是著名的ChatGPT背后的技术，使其能够通过超强的自然语言理解来模仿人类。

GPT-4在解决诸如制作详细而精确的图像描述、解释不寻常的视觉现象、使用手写文本指令开发网站等任务方面表现出巨大的性能。一些用户甚至用它来构建视频游戏和Chrome浏览器扩展，并解释复杂的推理问题。

GPT-4的特殊性能背后的原因并不完全了解。最近发表的一篇研究论文的作者认为，GPT-4的先进能力可能是由于使用了更先进的大型语言模型。

之前的研究表明，大型语言模型如何由巨大的潜力组成，而这些潜力大多不存在于小型模型中。因此，作者提出了一个名为MiniGPT-4的新模型来详细探讨这一假设。MiniGPT-4是一个开源模型，能够像GPT-4一样执行复杂的视觉-语言任务。

MiniGPT-4由沙特阿拉伯阿卜杜拉国王科技大学的一个博士生团队开发，包括与GPT-4所描绘的类似的能力，如详细的图像描述生成和从手写稿中创建网站。MiniGPT-4使用名为Vicuna的高级LLM作为语言解码器，它建立在LaMA的基础上，据说可以达到GPT-4所评价的ChatGPT质量的90%。

MiniGPT-4使用了BLIP-2（Bootstrapping Language-Image Pre-training）的预训练视觉组件，并通过冻结所有其他视觉和语言组件，增加了一个单一的投影层，将编码的视觉特征与Vicuna语言模型对齐。

🚀 在AI工具俱乐部中查看100种AI工具

当被要求从图片输入中识别问题时，MiniGPT-4显示了很好的效果。它根据用户提供的有病植物的图片输入提供了一个解决方案，并提示询问植物有什么问题。它甚至发现了图片中不寻常的内容，编写了产品广告，通过观察美味的食物照片生成了详细的食谱，想出了受图片启发的说唱歌曲，并直接从图片中检索了有关人物、电影或艺术的事实。

根据他们的研究，该团队提到，训练一个投影层可以有效地将视觉特征与LLM对齐。MiniGPT-4只需要在4个A100 GPU上训练10个小时左右。

此外，该团队还分享了开发一个高性能的MiniGPT-4模型是如何通过使用公共数据集的原始图像-文本对来对齐视觉特征与LLM的，因为这可能会导致重复的短语或片段的句子。为了克服这一局限性，MiniGPT-4需要使用高质量的、排列整齐的数据集进行训练，从而通过生成更自然和连贯的语言输出来提高模型的可用性。

由于MiniGPT-4具有出色的多模态生成能力，它似乎是一个很有前途的发展。最重要的特征之一是它的高计算效率，以及它只需要大约500万个对齐的图像-文本对来训练一个投影层的事实。代码、预训练的模型和收集的数据集都可以得到

请查看论文、项目和Github。