- 自然语义大模型
- 多模态大模型
- 模态与多模态的概念
- 多模态的典型任务
- 本地私有部署图文描述模型
- 本地私有部署文生图模型
-
大模型感知层 NLP大模型(大脑)--> 对数据理解与分析起到决定性因素
-
逻辑层Agent
Transformer解码器部分
抽象化的理解,会有自己的理解。问一些创新的理解。模型越大,数据越标准,越智能。
多模态:
NLP大模型,理解你的输入。
VIT模型。 GAN
输入的是问题,输出可以是多样的。如文本,图像,音频,视频。
输入也可以多样化。
最终的效果,决定于模型对数据的理解和认知。
模态
数据呈现的形式。
从模型角度上讲,处理的是固定的。
图像,视频,音频,这三种数据都是二进制,读取数据需要解码器。
多模态典型任务:
-
跨模态训练
- 图像、视频与语言训练
- 跨任务预训练
-
Language-Audio
- TTS
- Audio Captioning
-
Vision-Audio