多模态,就是 同时处理多种类型的信息。
在 AI 里,常见的“模态”包括:
- 文本:一句话、一篇文章
- 图片:照片、截图、图表
- 语音:说话声音
- 视频:连续画面
- 传感器数据:定位、温度、动作等
你可以这样理解
单模态
只处理一种信息。
比如:
- 只看文字回答问题
- 只识别图片里的猫狗
多模态
把不同类型的信息结合起来理解。
比如:
- 你发一张图,再问“这张图什么意思”
- 你上传表格截图,让 AI 帮你分析
- 你说一句话,系统既听声音又看嘴型
- 自动驾驶同时看摄像头、雷达、地图数据
举个最直观的例子
你发一张图片,里面是:
- 一个杯子倒了
- 地上有水
- 旁边有个小孩
然后你问:
“发生了什么?”
如果 AI 只是看图识别出:
- 杯子
- 水
- 小孩
这是偏视觉识别。
如果 AI 还能结合你的文字问题,回答:
“杯子可能被小孩碰倒了,水洒出来了。”
这就是多模态能力,因为它把:
- 图片信息
- 文字问题
一起理解了。
多模态模型能做什么
常见能力有:
- 看图问答
- 图片生成文字描述
- 根据文字生成图片
- 语音转文字
- 视频理解
- 图文联合检索
- 文档理解(图片+文字+表格一起看)