论文题目:A Survey on Multimodal Large Language Models
Github:link
一、Motivation
多模态大规模语言模型相关技术在最近受到广泛关注,因为其展现出了比单一语言模型更加优越的效果,但是目前没有论文针对多模态大规模语言模型技术进行总结。因此本文作者针对这一不足进行了总结。
二、主要工作
本文作者的主要贡献如下:
- 首先使用图表展示了现有的多模态+LLM(MLLM)的结合形式
- 其次对MLLM的一些关键技术点进行了总结
- 最后针对MLLM的一些挑战和可以优化的方向进行了小结
三、多模态模型相关技术
这里先回答一个问题:
- 为什么需要多模态+LLM的形式?
- MLLM相比于LLM更加符合人类的感知,因为人类大脑支持输入多种模态(语音、图像、文字等);
- MLLM更加用户友好,用户使用更加方便;
- MLLM可以解决多种问题,因为多模态的引入,其可以解决更加复杂的问题;
多模态指令微调MIT
- 定义:使用特定的指令微调数据集微调预训练的模型
- 形式:与多任务提示学习有一些联系
- 指令的设计:基于人工或者基于模型(使用GPT构建)
- 作用:可以提高模型的泛化能力,可以使其处理0样本任务
- 数据集构建:使用开源数据集+GPT调整、自己构建、两种方法混合使用
- 输入:指令+对应的模态数据
- 输出:指定的指令的回答
- 评估:使用闭源数据集、使用公开数据集(人工打分、GPT打分、案例打分)、使用其他数据集
- 作用机理:通过在指令构建样本中学习并抽取新的问题(少样本学习),可以使得模型能够解决更加复杂的或者未见过的任务
多模态上下文学习MICL
- 优点:
- 帮助模型学习推理
- 一般不需要模型参与训练(training-free),可以整合到不同的框架中
- 应用场景:
- 用于视觉问答
- 教会模型使用外部工具
多模态思维链MCoT
- 定义:思维链就是一系列的中间推理的步骤
- 配置:自适应的、预先定义的
- 泛化模式:推理任务(填充模式)、预测任务
- 模型连接:使用可学习的接口(参数)、使用外部模型(Cv模型)
- 模态对齐实现形式:基于可学习的参数(Query Based、Projection Based、参数高效微调)、基于外部专家(引入其他模态相关的模型)
- 学习范式:微调、少样本/零样本学习
多模态视觉推理LAVR
- 训练范式:无训练(training-free)、微调
- 功能:
- 控制者:使用模型一步到位,回答所有提出的问题
- 将大问题逐步分解为小问题
- 将这些小问题分配给对应的模块
- 决策制定者:需要判断问题,并调动相应的资源来回答
- 总结当前的上下文和历史信息,并且决定哪些信息是可以用于解决问题的
- 组织并总结这些回答,并以一种合适的方法呈现给用户
- 语义修正:用于丰富用户的语言和语义知识
- 控制者:使用模型一步到位,回答所有提出的问题
- 评估
- 使用公用的指标
- 使用人工评价
四、多模态模型评价方法
- 使用公用的指标
- 使用人工评价
五、多模态方法现有不足
- 模态信息来源有问题(提取不同模态信息的模块能力不够,导致提取的表征有噪音);
- MLLM的推理链可能还比较脆弱,例如尽管其答案正确,但是其推理过程是错误的;
- 指令微调的方法有问题,例如存在模型无法回答yes或者no的问题;
- 模型存在缓解问题,导致其答案可信度存在问题;
- 参数有效性训练,如何在有限的资源下进行高效的训练仍然是一个问题;
Reference
[1] Yin, Shukang, et al. "A Survey on Multimodal Large Language Models." arXiv preprint arXiv:2306.13549 (2023).