MLLM:多模态大规模语言模型综述

612 阅读4分钟

论文题目:A Survey on Multimodal Large Language Models[1]^{[1]}

Github:link

一、Motivation

多模态大规模语言模型相关技术在最近受到广泛关注,因为其展现出了比单一语言模型更加优越的效果,但是目前没有论文针对多模态大规模语言模型技术进行总结。因此本文作者针对这一不足进行了总结。

二、主要工作

本文作者的主要贡献如下:

  • 首先使用图表展示了现有的多模态+LLM(MLLM)的结合形式
  • 其次对MLLM的一些关键技术点进行了总结
  • 最后针对MLLM的一些挑战和可以优化的方向进行了小结

三、多模态模型相关技术

这里先回答一个问题:

  • 为什么需要多模态+LLM的形式?
    • MLLM相比于LLM更加符合人类的感知,因为人类大脑支持输入多种模态(语音、图像、文字等);
    • MLLM更加用户友好,用户使用更加方便;
    • MLLM可以解决多种问题,因为多模态的引入,其可以解决更加复杂的问题;

多模态指令微调MIT

  • 定义:使用特定的指令微调数据集微调预训练的模型
  • 形式:与多任务提示学习有一些联系
  • 指令的设计:基于人工或者基于模型(使用GPT构建)
  • 作用:可以提高模型的泛化能力,可以使其处理0样本任务
  • 数据集构建:使用开源数据集+GPT调整、自己构建、两种方法混合使用
  • 输入:指令+对应的模态数据
  • 输出:指定的指令的回答
  • 评估:使用闭源数据集、使用公开数据集(人工打分、GPT打分、案例打分)、使用其他数据集
  • 作用机理:通过在指令构建样本中学习并抽取新的问题(少样本学习),可以使得模型能够解决更加复杂的或者未见过的任务

多模态上下文学习MICL

  • 优点:
    • 帮助模型学习推理
    • 一般不需要模型参与训练(training-free),可以整合到不同的框架中
  • 应用场景:
    • 用于视觉问答
    • 教会模型使用外部工具

多模态思维链MCoT

  • 定义:思维链就是一系列的中间推理的步骤
  • 配置:自适应的、预先定义的
  • 泛化模式:推理任务(填充模式)、预测任务
  • 模型连接:使用可学习的接口(参数)、使用外部模型(Cv模型)
  • 模态对齐实现形式:基于可学习的参数(Query Based、Projection Based、参数高效微调)、基于外部专家(引入其他模态相关的模型)
  • 学习范式:微调、少样本/零样本学习

多模态视觉推理LAVR

  • 训练范式:无训练(training-free)、微调
  • 功能:
    • 控制者:使用模型一步到位,回答所有提出的问题
      • 将大问题逐步分解为小问题
      • 将这些小问题分配给对应的模块
    • 决策制定者:需要判断问题,并调动相应的资源来回答
      • 总结当前的上下文和历史信息,并且决定哪些信息是可以用于解决问题的
      • 组织并总结这些回答,并以一种合适的方法呈现给用户
    • 语义修正:用于丰富用户的语言和语义知识
  • 评估
    • 使用公用的指标
    • 使用人工评价

四、多模态模型评价方法

  • 使用公用的指标
  • 使用人工评价

五、多模态方法现有不足

  • 模态信息来源有问题(提取不同模态信息的模块能力不够,导致提取的表征有噪音);
  • MLLM的推理链可能还比较脆弱,例如尽管其答案正确,但是其推理过程是错误的;
  • 指令微调的方法有问题,例如存在模型无法回答yes或者no的问题;
  • 模型存在缓解问题,导致其答案可信度存在问题;
  • 参数有效性训练,如何在有限的资源下进行高效的训练仍然是一个问题;

Reference

[1] Yin, Shukang, et al. "A Survey on Multimodal Large Language Models." arXiv preprint arXiv:2306.13549 (2023).