[笔记][大模型学习]24-多模态大模型

62 阅读1分钟
  • 自然语义大模型
  • 多模态大模型
  1. 模态与多模态的概念
  2. 多模态的典型任务
  3. 本地私有部署图文描述模型
  4. 本地私有部署文生图模型
  • 大模型感知层 NLP大模型(大脑)--> 对数据理解与分析起到决定性因素

  • 逻辑层Agent

Transformer解码器部分

抽象化的理解,会有自己的理解。问一些创新的理解。模型越大,数据越标准,越智能。

多模态:

NLP大模型,理解你的输入。

VIT模型。 GAN

输入的是问题,输出可以是多样的。如文本,图像,音频,视频。

输入也可以多样化。

最终的效果,决定于模型对数据的理解和认知。

模态

数据呈现的形式。

从模型角度上讲,处理的是固定的。

图像,视频,音频,这三种数据都是二进制,读取数据需要解码器。

多模态典型任务:

  • 跨模态训练

    • 图像、视频与语言训练
    • 跨任务预训练
  • Language-Audio

    • TTS
    • Audio Captioning
  • Vision-Audio