GPT-4是OpenAI最新发布的大型语言模型。它的多模态性使其有别于之前推出的所有LLMs。GPT的转化器架构是著名的ChatGPT背后的技术,使其能够通过超强的自然语言理解来模仿人类。
GPT-4在解决诸如制作详细而精确的图像描述、解释不寻常的视觉现象、使用手写文本指令开发网站等任务方面表现出巨大的性能。一些用户甚至用它来构建视频游戏和Chrome浏览器扩展,并解释复杂的推理问题。
GPT-4的特殊性能背后的原因并不完全了解。最近发表的一篇研究论文的作者认为,GPT-4的先进能力可能是由于使用了更先进的大型语言模型。
之前的研究表明,大型语言模型如何由巨大的潜力组成,而这些潜力大多不存在于小型模型中。因此,作者提出了一个名为MiniGPT-4的新模型来详细探讨这一假设。MiniGPT-4是一个开源模型,能够像GPT-4一样执行复杂的视觉-语言任务。
MiniGPT-4由沙特阿拉伯阿卜杜拉国王科技大学的一个博士生团队开发,包括与GPT-4所描绘的类似的能力,如详细的图像描述生成和从手写稿中创建网站。MiniGPT-4使用名为Vicuna的高级LLM作为语言解码器,它建立在LaMA的基础上,据说可以达到GPT-4所评价的ChatGPT质量的90%。
MiniGPT-4使用了BLIP-2(Bootstrapping Language-Image Pre-training)的预训练视觉组件,并通过冻结所有其他视觉和语言组件,增加了一个单一的投影层,将编码的视觉特征与Vicuna语言模型对齐。
当被要求从图片输入中识别问题时,MiniGPT-4显示了很好的效果。它根据用户提供的有病植物的图片输入提供了一个解决方案,并提示询问植物有什么问题。它甚至发现了图片中不寻常的内容,编写了产品广告,通过观察美味的食物照片生成了详细的食谱,想出了受图片启发的说唱歌曲,并直接从图片中检索了有关人物、电影或艺术的事实。
根据他们的研究,该团队提到,训练一个投影层可以有效地将视觉特征与LLM对齐。MiniGPT-4只需要在4个A100 GPU上训练10个小时左右。
此外,该团队还分享了开发一个高性能的MiniGPT-4模型是如何通过使用公共数据集的原始图像-文本对来对齐视觉特征与LLM的,因为这可能会导致重复的短语或片段的句子。为了克服这一局限性,MiniGPT-4需要使用高质量的、排列整齐的数据集进行训练,从而通过生成更自然和连贯的语言输出来提高模型的可用性。
由于MiniGPT-4具有出色的多模态生成能力,它似乎是一个很有前途的发展。最重要的特征之一是它的高计算效率,以及它只需要大约500万个对齐的图像-文本对来训练一个投影层的事实。代码、预训练的模型和收集的数据集都可以得到