MLLM：多模态大规模语言模型综述

2023-12-27 628 阅读4分钟

论文题目：A Survey on Multimodal Large Language Models $^{[1]}$

Github：link

一、Motivation

多模态大规模语言模型相关技术在最近受到广泛关注，因为其展现出了比单一语言模型更加优越的效果，但是目前没有论文针对多模态大规模语言模型技术进行总结。因此本文作者针对这一不足进行了总结。

二、主要工作

本文作者的主要贡献如下：

首先使用图表展示了现有的多模态+LLM（MLLM）的结合形式
其次对MLLM的一些关键技术点进行了总结
最后针对MLLM的一些挑战和可以优化的方向进行了小结

三、多模态模型相关技术

这里先回答一个问题：

为什么需要多模态+LLM的形式？
- MLLM相比于LLM更加符合人类的感知，因为人类大脑支持输入多种模态（语音、图像、文字等）；
- MLLM更加用户友好，用户使用更加方便；
- MLLM可以解决多种问题，因为多模态的引入，其可以解决更加复杂的问题；

多模态指令微调MIT

定义：使用特定的指令微调数据集微调预训练的模型
形式：与多任务提示学习有一些联系
指令的设计：基于人工或者基于模型（使用GPT构建）
作用：可以提高模型的泛化能力，可以使其处理0样本任务
数据集构建：使用开源数据集+GPT调整、自己构建、两种方法混合使用
输入：指令+对应的模态数据
输出：指定的指令的回答
评估：使用闭源数据集、使用公开数据集（人工打分、GPT打分、案例打分）、使用其他数据集
作用机理：通过在指令构建样本中学习并抽取新的问题（少样本学习），可以使得模型能够解决更加复杂的或者未见过的任务

多模态上下文学习MICL

优点：
- 帮助模型学习推理
- 一般不需要模型参与训练（training-free），可以整合到不同的框架中
应用场景：
- 用于视觉问答
- 教会模型使用外部工具

多模态思维链MCoT

定义：思维链就是一系列的中间推理的步骤
配置：自适应的、预先定义的
泛化模式：推理任务（填充模式）、预测任务
模型连接：使用可学习的接口（参数）、使用外部模型（Cv模型）
模态对齐实现形式：基于可学习的参数（Query Based、Projection Based、参数高效微调）、基于外部专家（引入其他模态相关的模型）
学习范式：微调、少样本/零样本学习

多模态视觉推理LAVR

训练范式：无训练（training-free）、微调
功能：
- 控制者：使用模型一步到位，回答所有提出的问题
  - 将大问题逐步分解为小问题
  - 将这些小问题分配给对应的模块
- 决策制定者：需要判断问题，并调动相应的资源来回答
  - 总结当前的上下文和历史信息，并且决定哪些信息是可以用于解决问题的
  - 组织并总结这些回答，并以一种合适的方法呈现给用户
- 语义修正：用于丰富用户的语言和语义知识
评估
- 使用公用的指标
- 使用人工评价

四、多模态模型评价方法

使用公用的指标
使用人工评价

五、多模态方法现有不足

模态信息来源有问题（提取不同模态信息的模块能力不够，导致提取的表征有噪音）；
MLLM的推理链可能还比较脆弱，例如尽管其答案正确，但是其推理过程是错误的；
指令微调的方法有问题，例如存在模型无法回答yes或者no的问题；
模型存在缓解问题，导致其答案可信度存在问题；
参数有效性训练，如何在有限的资源下进行高效的训练仍然是一个问题；

Reference

[1] Yin, Shukang, et al. "A Survey on Multimodal Large Language Models." arXiv preprint arXiv:2306.13549 (2023).