获得徽章 0
开车还热车嘛?
你们现在开车还有热车习惯吗?冬天感觉有必要,但是原地热车又怕积炭….
小羊想说这些于2026-02-04 10:28发布的图片
13
不带滤镜,特斯拉真的好开吗
特斯拉是真的很好开吗,有没有真实的特斯拉车主来说一说驾驶感受
小羊想说这些于2026-02-03 10:12发布的图片
12
牛马打工人不配买50w的车
奋斗七八年了,真的很想在30岁的时候拿下一台梦寐以求的车,一直都有关注问界M9,真的很想买这台车,即便这要花掉我将近2年的工资,但还是想圆梦,大家说值得吗?
小羊想说这些于2026-02-02 10:28发布的图片
133
给INFJ 500w,会马上辞职躺平吗
小羊想说这些于2026-01-30 10:20发布的图片
5
大家上车后第一件事会做什么?
大家上车后第一件事会做什么?我一般上车后的第一件事就是系上安全带,连上蓝牙放音乐
小羊想说这些于2026-01-29 10:35发布的图片
17
建议年前买车还是年后买车啊?
小羊想说这些于2026-01-28 10:50发布的图片
18
为什么现在两门精致小车几乎看不到了?
小羊想说这些于2026-01-27 10:45发布的图片
10
多模态大模型任务总结
什么是多模态?
模态指的是数据或者信息的表现形式,如文本、图像、音频、视频等。
多模态学习就是利用模型去同时处理多个模态数据,如同时处理图文,图生文本、文本生图等。通过多模态大模型,可以更好地理解和处理复杂的多模态数据,提高人工智能的应用性能。
多模态的任务有哪些?
Language-Audio
- Text-to-Speech Synthesis: 给定文本,生成一段对应的声音
- Audio Captioning:给定一段语音,生成一句话总结并描述主要内容
Vision-Audio
- Audio-Visual Speech Recognition:给定某人的视频及语音进行语音识别
- Video Sound Separation:给定视频和声音信号,进行声源定位与分离
- Image Generation from Audio: 给定声音,生成与其相关的图像
- Speech-conditioned Face generation:给定一段话,生成说话人的视频
- Audio-Driven 3D Facial Animation:给定一段话与3D人脸模版,生成说话的人脸3D动画
Vision-Language
- Image/Video-Text Retrieval: 图像/视频<-->文本的相互检索
- Image/Video Captioning:给定一个图像/视频,生成文本描述其主要内容
- Visual Question Answering:给定一个图像/视频与一个问题,预测答案
- Image/Video Generation from Text:给定文本,生成相应的图像或视频
- Multimodal Machine Translation:给定一种语言的文本与该文本对应的图像,翻译为另外一种语言
- Vision-and-Language Navigation:给定自然语言进行指导,使得智能体根据视觉传感器导航到特定的目标。

- Multimodal Dialog:给定图像,历史对话,以及与图像相关的问题,预测该问题的回答
定位
展开
评论