多模态是什么

0 阅读1分钟

多模态,就是 同时处理多种类型的信息

在 AI 里,常见的“模态”包括:

  • 文本:一句话、一篇文章
  • 图片:照片、截图、图表
  • 语音:说话声音
  • 视频:连续画面
  • 传感器数据:定位、温度、动作等

你可以这样理解

单模态

只处理一种信息。

比如:

  • 只看文字回答问题
  • 只识别图片里的猫狗

多模态

把不同类型的信息结合起来理解。

比如:

  • 你发一张图,再问“这张图什么意思”
  • 你上传表格截图,让 AI 帮你分析
  • 你说一句话,系统既听声音又看嘴型
  • 自动驾驶同时看摄像头、雷达、地图数据

举个最直观的例子

你发一张图片,里面是:

  • 一个杯子倒了
  • 地上有水
  • 旁边有个小孩

然后你问:

“发生了什么?”

如果 AI 只是看图识别出:

  • 杯子
  • 小孩

这是偏视觉识别

如果 AI 还能结合你的文字问题,回答:

“杯子可能被小孩碰倒了,水洒出来了。”

这就是多模态能力,因为它把:

  • 图片信息
  • 文字问题
    一起理解了。

多模态模型能做什么

常见能力有:

  • 看图问答
  • 图片生成文字描述
  • 根据文字生成图片
  • 语音转文字
  • 视频理解
  • 图文联合检索
  • 文档理解(图片+文字+表格一起看)

ChatGPT Image 2026年4月20日 23_23_52.png